首页 纺织企业纱线质量的数据挖掘研究(可编辑)

纺织企业纱线质量的数据挖掘研究(可编辑)

举报
开通vip

纺织企业纱线质量的数据挖掘研究(可编辑)纺织企业纱线质量的数据挖掘研究(可编辑) 纺织企业纱线质量的数据挖掘研究 ’,( 工 1039738 分类号t12址:!丝鸯级: 公赶 UDc: 6墨:?学号:(Q3Q2Q? 东 南 大 学 硕士学位论文 纺织企业纱线质量的数据挖掘研究 研究生姓名: 黑程煎 导师姓名: 奎壹数授 申请学位级别 王生殛? 学科专业名称控劐理j金当控制王攫 论文提交El期至Q鲤玺墨且!!旦论文答辩日期星曼复量且羔生目 学位授予单位 盔直太燮 学位授予日期至Q她生兰且兰生旦 答辩委员会主席(垄立4趁 评 阅...

纺织企业纱线质量的数据挖掘研究(可编辑)
纺织企业纱线质量的数据挖掘研究(可编辑) 纺织企业纱线质量的数据挖掘研究 ’,( 工 1039738 分类号t12址:!丝鸯级: 公赶 UDc: 6墨:?学号:(Q3Q2Q? 东 南 大 学 硕士学位 论文 政研论文下载论文大学下载论文大学下载关于长拳的论文浙大论文封面下载 纺织企业纱线质量的数据挖掘研究 研究生姓名: 黑程煎 导师姓名: 奎壹数授 申请学位级别 王生殛? 学科专业名称控劐理j金当控制王攫 论文提交El期至Q鲤玺墨且!!旦论文答辩日期星曼复量且羔生目 学位授予单位 盔直太燮 学位授予日期至Q她生兰且兰生旦 答辩委员会主席(垄立4趁 评 阅 入 』蜀焦 到盔生 2006年3月 ―――――――――――――――――――――――― j!!!――――――――――――――――――――――――――――――――――――――一 摘要 system 得到了广泛的应用, 随着纺织厂+自动化水平的不断提高,MIS ManagementInformation 纳织企业建立r涵盖纱线生产一全过程的数据库系统。为了充分利用数据库中的数据,挖掘数据中蕴 藏的知识规则,提高纺织厂的纱线质量水平,论文以交徽华茂股份有限公司MIS中的纱线质量数据 为研究背景,重点研究了基于纺织厂纱线质量数据仓库的数据挖掘系统,以充分发挥数据挖掘对纱 线生产的指导作川。 论文首先根据原来MISI*J数据库系统,建立纱线质量数据仓库,然后在其基础上,开发山一套 基丁数据仓库的数据挖捌系统,并蜊该系统分析纱线质鼙,进行oLAP和数据挖捌,得出知识规则, 通过实践的检验和技术人员的评估之后用米指导纱线生产运行。这种基于纱线质量数据仓库的数据 挖_ i 系统的研究,为纺织企业的信息化进群和决策支持系统的建立奠定了一定的基础。论文最后根 据棉纱质量对应关系,通过神经网络BP算法训练模型,根据配棉质量预测纱线质量,达到了预期效 果,具有一定的实际意义。 荧键词:数据仓库 数据挖掘 纱线 BP 预测 AbMracI Abstract is leveloftextile information With automatization system increasing enterprises,management usedintextile haveestablisheddatabasewhichcoverswiththe of widely enterprises(they system process available intextile Inordertomakefulluseofdataanddiscover yarnproductionenterprises inthe elevatethelevelofthe intextile theresearchwork containingdata,and yarnquality enterprise,so whichexistinMISofAnHuiHuamao isto isbasedondataof Co,Ltd, thepoint yarnquailty Group researchthedata basedonthedatawarehouseof fulluseofthe making miningsystem yarnquality,for functionofthedata in intextile candirectthe ofthe quality enterprise,whichproduction miningyam yarn of basedondatabaseofformer this datawarehouse Firstly,inpaper,establish yarnquality system onthedata intextile assnmeto thedata based M1S enterprise,thenexploit miningsystem warehouse, andusethe to withOLAPanddata a available quality mining,asresult, get systemanalyseyam jnformation validationof and theinformationrulestodirecta rules,after experts’evaluation,use practice ofthedata basedonthewarehouse processofproductionofyarn(Theexploitation miningsystem ofyarn establisheda forinformationalcourseoftextile and quailty,has groundwork enterprise of theendofthis tothe relation decision―makingbackupsystem(At paper,accordingcorresponding theforecast tocotton withthe hasachieved ofyarnqualityaccordingquality cotton??yarnquality,thispaper neuralnetworkBParithmetictotrain theresultattains model,and cotton-yarncorresponding themeanshas purpose,so partlypracticalmeaning( Warehouse Keywords:Data Date Mining Yarn BP Forecast II 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用 过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示了谢意。 研究生签名: 盖主量燮日 期:兰!堑:z:, 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公相 包括刊登 论文的全部或部分内容。论文的公布 包括刊登 授权东南大学研 究生院办理。 ( 研究生签名:美礁燮 导师签名:之萎三兰垂日 期:,一。g??;-,。 第一章绪论 第一章绪论 1(1纺织行业数据利用现状 随着计算机技术和通信技术的发展,以及我国加入WTO,计算机信息技术在纺织行业的应用越 米越J’泛。党的十人人提山“信息化带动』:业化,工业化促进信息化”的战略方针。为纳织工业进 一步提高竞争力,实现跨越式发展指明了方向。 纺织行业属劳动密集硝产业,大部分是中小企业,其信息化程度普遍不高,据中国纺织协会在 2001年对全国1000多家纺织企业进彳_的府用调查,目前纺织企业每年在信息化r作方面的平均投入 仅tb其销售收入的0,1,左右,这与发达国家大企业信息化的投入占总资产8,--10,的比例相比,存 在较人筹距Ili。 纺织行业作为传统制造业,其信息化就是将信息技术、自动化技术、现代管理技术和制造技术 相结合(最终实现产晶设计制造和企业管理信息化,生产过稃控制的自动化,制造装备的数字化, 咨询服务的网络化,从而全面提升企业的核心宽争力。管理信息系统MIS,将人事、1(资、库存、 生产、调度 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 等管理子系统集成起来形成统一的管理信息系统口J。 虽然国内纺织行业信息化发展比较迟,但已有不少纺织企业已经实现了信息化管理,并且运行 了多年,积累了人肇的原始数据,形成了涵盖纺织厂生产全过程的“数据宝库”。但面对这些收集、 转换过来的数据集合,目前极人部分纺织厂只是采用传统的数据分析、统计手段米进行日常的数据 汇总、制表、趋势分析笛浅层次的处理lll,li]用。受人力、物力、财力以及知识的限制,无法从时间 和空间意义上,深层次地理解并有效地使用这些数据。这样所收集的数据,不仅得不剑充分的利用, 反而带米越米越严重的“数据灾难”和“资源荒废”。一方面纺织厂花费大鼍的人力、物力、财力, 建立数据采集系统以及管理信息系统,仍Hj传统的数据分析方法去处理数据,其收获是面对海量的 数据“事倍功、#”。儿乎得不到蕴涵在数据中的深层次信息,管理水平得不剑实质性的提高,带来 的经济效益也不是很明显:另一方面,纺织厂的决策者企盼应用隐含在数据中的知识作为支持,以 做出止确的决策,却冈“知识局限”而守着这些“知识宝库”开采不出有价 值的信息。 安徽华茂纺织股份有限公司是一家国内上市的纺织企业。1998年,在纺织行业信息化大潮下, 安徽华茂纺织股份有限公司与尔南大学自动控制系开展信息化合作,实现信息化管理,经过多年运 行,积累了包招生产各个环节的人晕数据,其中涉及到纺织企业生命的纱线质鼍历史数据往往被忽 略和废弃,而这些质量数据中往往隐含着大量有用的知识,在这种情况下,常规的数据库技术不能 为纺织厂的重人决策和优化运彳了提供客观的、有前瞻性的科学依据,需要通过数据仓库 Data Warehouse 与数据挖掘 Dam Mining 为代表的数据库新技术进行发现,面对竞争日箭激烈的纺织市 场,纺织企业必须把业务经营同市场需求联系起来,在此基础上做出科学、正确的决策,以求生存。 1(2数据仓库与数据挖掘技术 1(2(1数据仓库技术的发展 随着Client,Server 客户,服务器 技术的成熟和并行数据库的发展,信息处理技术的发展趋势是: 从人鼙的事务删数据库中抽取数据,,f将其清理、转换为新的存储格式。即针对决策目标把数据聚 合住一种犄殊的格式中【3l。随着此过稃的发展干?完善,这种支持决策的、特殊的数据存储即被称为 数据仓库。数据仓J芊的概念一山现,立即引起学术界和一1业界的极人关注,厂商们争相展示出产晶, 东南人学硕I学位论史 而研究领域则掀起了信息研究的一股热潮。80年代初,w(H(Inmon在“记 录系统”、“原子数 据” AtomicData 和JDSS等专 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 研究报告中,提出了数据仓库或信息仓库的概念弗给出了基本框架 描述。其定义为【4I:数据仓库是支持管理决策过稃的、面向土题的、集成的、稳定的、不同时间的 数据集合。 域里的一项重人的技术创新。在国外,数据仓库概念已破接受,而在我国则是刚刚兴起的信息管理 新概念,是现代计算机应用领域里的一个崭新方向。它是一种新型的信息管理技术,其研究的主要 宗旨是通过通畅、合理、全面的信息管理,来达到对管理决策的支持。与信息处理技术中的联机处 理 OLTP 相比,它完全是另一种类型的信息管理方式。 当今(『廿界,信息技术及其产业飞速发展,取得了令人瞩目的成绩。 与此同时,任何一个组织 公 Data ,如订单、库存记录等。这些运 司或企业 每大都会产生或收集剑人耸的营返数据 Operational 营数据的捕获和维护几乎都是由相关部fJ来负责的,尽管这些数据精确、可靠,但是许多组织并朱 从中获得有价值的信息。原冈在于这些数据没有获得相关的处理,如门纳、总结等。同时企业内外 的数据爿?源众多,格式各异,要想从这些零乱的数据中了解变化的形势,并做出上E确的反应,就需 要对这些数据进行快速综合、分析,使决策者能得剑可视化的更新数据。数据仓库上E是能够解决这 一问题的崭新的信息处理技术。 1(2(2数据挖掘技术的发展状况 数据挖掘技术的提山最早可追溯剑1989年8月在美国底特律召开的第 1l屑国际人J二智能联合会 inDatabase 这个 术语。随后 Discovery 议的专题讨论会,在该次讨论会上首次出现KDD Knowledge 集中讨论数据统计、海草数据分析算法、知识表示、知识运用管问题。随着 参与人员的不断增多, andData Engineering 率先出版 多国际会议也将KDD列为讨论的专题,1993年IEEE的《Knowledge 了KDD专刊,1997年创办了国际性的学术刊物《DataMining 的软什公司开始开发KDD软件,许多大学开始开设数据挖掘的相关课程。 到目前为lL,由美国人r智能协会主办的KDD国际研讨会已经召开了8次,规模由原来的专题 讨论会发展刨国际学术人会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术 的集成,以及多种学科之间的相互渗透。1999年,砸太地区在北京召开的第三届PAKDD会议收到158 篇论文,空前热烈。并行计算、计算机网络和信息1二稃等其他领域的国际学会、学刊也把数据挖掘 和知识发现列为专题和专刊讨论,甚至剑了脍炙人口的程度。 已经上市的数据挖掘系统有:加拿人Simon 于一体的数据挖掘系统Mineset等。 目前,国外数据挖掘研究的进一步发展主要有对知识发现方法的研究, 如近年米注重对Bayes 贝 紧密结合等。住应用方面包括:KDD商业软件_r具不断产生和完善,注重建立解决问题的移体系统, 而不是孤立的过稃。用户主要集中在银行、保险公司、电信公司和销馈业。国外很多计算机公司1F 常重视数据挖掘的开发戍Hj,IBM雨I微软都成立了相应的研究中心开展这方面的I‘tr。 与国外相比,国内对DMKD DataMining 力攀。1993年国家白然科宁基金首次支持对该领域的研究。1994年4月在北京召开的第3届弧太地犀 KDD国际会议响廊热烈,收剑论文158篇。目前国内很多高校和科研单位从事数据挖掘的基础理论 和府削的研究,如北京系统一J稗研究所对模糊方法在知识发现中的应脂进行了较深入的研究,北京 2 第一章绪论 人学也在开展对数据立方体代数的研究,华中理r大学、复旦大学、浙江大学、中国科技人学、中 科院数学研究所、古林人学等单位开展了对芙联规则开采算法的优化和改造;南京大学、四川联合 人学乖?上海交通人学筲单伸探讨、研究了1F结构化数据的知识发现以及Web数据挖掘。所涉及的研 究领域很多。一般集中1二学习算法的研究、数据挖掘的实际戍用以及有关数据挖掘理论方面的研究。 目前进行的人多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、“十五”计划 笛f”。 虽然数据仓库、数据挖掘技术已经发展很多年了,而且理论也比较成熟, 但运用的领域不是太 多,土要集中的物流、电信、银行等比较人的行业中,这些行业信息化稗度比较高,涉及的数据库 系统比较完善,对建立基丁二数据仓库的数据挖掘系统提供了必要的基础,而对信息化起步比较晚的 纺织行业来说,只能算起步阶段。 1(3课题的意义以及主要工作内容 本文的研究l“竹源于上述技术背景,以安徽华茂纺织股份有限公司数据库系统为数据源,尝试 研究基丁(纨织企业纱线质鼋的数据挖掘系统。把基于纱线质晕的数据仓库的数据挖掘系统运用到纱 线质草分析,指标优化羽I配棉预测中去,对纱线生产特性、指标关系进行挖掘与分析,通过数据米 发现其中的质鼙状况,为优化生产提供决策指导。 数据仓库与数据挖掘技术在纺织行业中的应J j还处丁(起步阶段,由于纺织企业有其独特性,许 多问题亟待解决。本课题主要研究基于纺织企业纱线质鼍的数据仓库的建立,并且在此基础上进行 数据挖掘,分析纱线质鼙的生产情况,并且通过配棉成分质量预测纱线质晕情况,因此整个课题是 把数据挖掘技术、数据仓库技术应用到纺织行业的一次尝试。这是一项开拓性的研究课题,既具有 一定的理论意义,又具有实际的应用价值。 本课题的主要研究内容可以分为以下儿部分: 1(数据仓库的研究 要构建一个面向纱线质蕈的数据仓库,首先要对数据仓库的概念、基本原理以及OLAP的基本 原理进行一定的研究。论文研究了从数据源中提取数据,再到构建数据仓库的元数据,完成元数据 Analytical 的定义和管理。了解和研究数据仓库的体系结构、联机分析处理 OLAP-On―Line Processing ,这些数据仓庠的基本知识对丁(随后的数据挖掘系统的成功实施起到基础性作用。 2(基丁数据仓库的数据挖掘系统的开发 Server2000平台上构建一个面向 本论文拟开发一套基丁I数据仓库的数据挖掘系统,首先在SQL 纱线质昔的数据仓库。这个数据仓库具有多维数据模犁,包括时间维、分厂维、品种维、项目维等, 来进行数据分析,OLAP,并通过建立挖掘模型进行数据挖掘。以上是基于数据仓库的数据挖掘系 统开发的技术线路。 3(纱线质草神经网络预测 土要通过构建棉纱质量对廊数据仓库,通过配棉成分质晕预测纱线质鼍情况,采川神经网络BP 算法进t?iJII缘模掣,并进行纱线质鼍预测,以到达数据挖掘的目的。 东南人学顺I学位论文 第二章数据仓库与数据挖掘 2(1前言 由丁二计算机技术的酱遍应用(承载企业信息的数据随着时间的推移而不断的增加,并且数据分 布在不同的系统平台上,具有多种存储形式。能否从纷繁复杂、大量沉淀的 数据中得到有_l j的决策 信息,及时做出正确的分析和决策,已成为企业生存与发展至关重要的课题。然而,传统的数据库 管理系统冈自身的局限性己无法满足决镱支持系统对数据的要求。因此,适用于决策支持系统的数 要技术。 数据挖掘 Data Mining 151就是从人鼙数据中发现潜在规律、提取有用知识的方法和技术。闪为 inDatabasesKDD 。数据挖掘不 与数据库密切相关,又称为数据库知识发现 KnowledgeDiscovery 但能够学习已有的知识,而且能够发现朱知的知识;得到的知识是“显式”的,既能为人所理解, 义便丁存储平?麻用,冈此一出现就得到广泛的重视。到目前为JE,对数据挖掘还没有统一的定义。 现” Information Discovery ,“知识发现” Knowledge Data Analysis ,“信息收获” InformationHarvesting 等。 2(2数据仓库 2(2(1数据仓库的含义及特点 数据仓库的概念是w(H(1nmon在其《建立数据仓库》一书中提山:“数据仓库是面向主题的、 datawarehouseisa 集成的、稳定的、不同时间的数据集合,州以支持管理决策过程的。 A nonvolatilecollectofdatain ofmanagement’s subject―oriented,integrated,time-variant(andsupport decision makingprocess ”141。 w(H(Inmon进而指出了数据仓库面向主题、集成、随时间变化、相对稳定这4个最重要的特征 161。 f1 数据仓库是面向主题的。传统数据库是面向戍用而-攻计的,它的数据是为了处理具体应用 而组织在一起。主题是一个在较高层次将数据进行归类的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 ,每一主题基本对应一个宏观的分析 领域,满足该领域分析决策的需要。冈此,主题的抽取是按照分析的要求来确定的。数据在进入数 据仓库之前必须要经过加1:与集成,将原始数据结构作一个面向应用剑面向主题的人转变。土题的 确定是很重要的,在纱线质昔数据库中涉及剑纱线质晕的主题域是1E常多的,升不是每个主题都需 要,必须是满足纱线质窜分析决策的才需建立主题域。 2 数据仓库的数据是集成性的。数据仓库的数据主要f J丁进彳了分析决策,要对细17数据进行 门纳、挚理、综合。数据集成是数据仓库技术中1r常关键且1E常复杂的内存。 3 数据仓库的数据只有时间犄祉。数据仓库随着时间变化要不断增加新的内容,即不断跟踪 事务处理系统,将业务数据库的数据变化追加剑数据仓库中去,同时也要随着时间变化删左过丁(陈 1R的数据内容。 4 数据仓库的数据是相对稳定的。数据仓序是随时间而变化的,但义是相当稳定的。数据仓 库的这种稳定性指的是数据仓库中的数据主要供企业决策分析之崩,决策人员所涉及的数据操什士 4 第一二章数据仓库’J数掘挖掘 要是数据杏洵,,般怙况F升不进行数据修改。 2(2(2数据仓库与传统数据库的比较 传统数据库的主要任务是对管理信息进行日常的操作,对信息进行卉询和修改,满足日常管理 需要。其中数据的特点是:只保留当前数据,且数据是动态变化的,只要有业务发生,数据就会被 更新。传统数据库对数据的访问量小且数据库使用频率高,重复操作多。下表为数据仓库与数据挖 掘的对照表n 比较内容 数据库 数据仓序 处理系统 OLTP 联机事务处理 OLAP 联机分析处理 处理特征 当前值 历史值 数据内容 操fr处理 信息处理’ 数据犄征 及时更新 定期追加、刷新 数据模犁 基丁E(R 星型,雪花模璎 数据目标 面向应用,办事员级 面向土题,管理人员级 表2(1数据仓库与数据库对照表 安徽华茂纺织股份有限公司数据库系统是基于E-R图进行设计的,是传统的数据序系统,在当 前MIS中只能对数据进行简单的奋询、删除、插入操作,并不能结合以往数据进行分析,只能进行 事务处理,因此从表中可以看出数据仓库有其独特的一面。 2(3OLAP的含义与特征 联机分析处理【” OLAP一一on(Line Analytical 数据模型,促进了关系数据库及联机事务处理 oLTP一一On(LineTransaction Processing l拘发展。后 来人们发现,联机事务处理不能很好的满足终端用户复杂的有询分析。用户 决策分析需要对关系数 据库进行人草的计算才能得到所需要的结果,因此出现了联机分析处理的概念。 OLAP的基本目的是使企业的决策者能灵活的操纵企业的数据,以多维的形式从多方面和多角 度米观察企业的状态、了解企业的数据,以通过快速、,致、交互的访问各种可能的信息视l璺l,帮 助管理人员掌握数据中存在的规律,实现对数据的归纳、分析和处理,帮助组织完成相关的决策。 其士要特点有4个方面pl: ”快速性。用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的久部分分 析要求做出反麻。 平台上进i-数据分析,也可以迎接到其他外部分析工具上,如时间序列分 析工具,成本分配r具、 意外报警管。 3 多维性。多维性是OLAP的笑键属性。系统必须提供对数据分析的多维视图和分析。事实上, 多维分析是分析企业数据最有效的方法,是OLAP的灵魂。 4 信息性。不论数据苗有多人,也不管数据存储在何处,OLAP系统府能及时获得信息,并且 管理人容苗信息。 数据仓库事实表中的数据信息可以采用多维数组的形式来描述,表示为: 维1,维2,„维n。 度链值 。例如:从时间维、分厂维和品种维管多个维度来分析纱线质链生产情况,采用多维数组形 式可以表示为 时间维,分厂维,品种维,班别维,细纱断头值 。 5 东南人学舰I(学位论文 2(4数据挖掘的处理过程 数据挖掘是一个需要经过反复的多次处理过程。 ,般处理过样士要包括以下一些处理步骤【,l: 1 数据选取。根据_lIJ户的要求从数据库中提取与数据挖掘相关的数据,数据挖掘将主要从这 些数据中提取知识。在此过程中,会利Hj一些数据库操作对数据进行处理,形成真实数据库。 2 数据预处理。主要是对 1 步产生的数据进行再加工,检杏数据的完整性及数据的一致性, 对其中的噪音数据进行处理,对丢失的数据利Hj统计方法或者其他方法进行填补,形成发掘数据序。 数据预处理其实就是一个数据仓库的建立过程,而建立数据仓库的方法将在第三章中作详细的介 绍。 3 确定数据挖掘的目标。根据用户的要求,明确数据挖掘要发现何种知识。因为对数据挖掘 的不同要求会导致在贝体的知识发现过程采用不同的知识发现算法。 4 确定知识发现算法。根据第 3 步所确定的任务,选择合适的数据挖掘算法,包括选取合适 的模删和参数,升使得数据挖捌算法与整个数据挖掘的评价标准相一致。 f5 数据挖掘。运用选定的数据挖掘算法,从数据中提取出用户所需的知识,这些知识可以用 一种特定的方式表示或使用一种常用的表示方式,如可视化技术。 6 知识解释与评价。这一过程主要是对所获取的规则进行解释与评价。根据某种兴趣度度量, 识别表示知识的真止有趣的模式,这一步主要依靠专家的经验米完成。 2(5数据挖掘、数据仓库、OLAP关系 数据仓库、联机分析处理和数据开采虽然是三种相互独立的技术,但是他们却紧密的结合在一 起(对辅助决策支持提供最人的帮助18l。 2(5(1数据仓库是基础 无论是数据挖掘还是OLAP分析,他们成功的关键之一是能够访问正确的、完整的和集成的数 据。这也是对数据仓库的要求。数据仓库不仅是集成数据的一种方式和I一个焦点,而且所有的数据 仓库的解决方案都源自和依赖丁(数据源部件的质草和效果 这种部什在数据仓库t日 界称为抽取、变换 和裟载 。数据仓库的特点集成的、随时间变化的、稳定的、面向主题舭JOLAP 分析、数据挖掘的 成功提供了坚实的数据基础。 2(5(2 OLAP和数据挖掘区别 策分析不可缺少的l具。但他们义有不同,比如他仃J分析的方法不同,所采用的技术都是不同的, 多维视图的基础之上,强调执行效率和对州户命令的及时响应。而且其育接数据源一般是数据仓库; 数据挖 | | 建立住各种数据源的基础上,能够自动分析发现隐藏在数据深层次的对人们有朋的模式 Patterns ,一股井不过多考虑执行效率和响应速度。 OLAP是一种白上而F、不断深入的分析工具:用户提山问题或假设,通过OLAP从上而F地提 取山犬丁该问题地详细信息,并且以可视化的方式呈现给埘户。与DM相比,OLAP更多地依靠州户 6 第一二审数掘仓库‘J数据挖掘 提供的问题利假设,受Hj户的思维习惯所影响。 DM常能挖掘山超越门纳范嗣的天系,但OLAP仅能利川人l:奄询及可视化的报表米确认某些关 系,而DM可以发现深层次的数据天系,事实上已超越了我们经验、教育、想象力的限制,OLAP可 以和DM互补,但这项特性是DM无法被OLAP取代的。 2(5(3 OLAP和数据挖掘联系 line 联机在线分析挖(I l! OnAnalyticalMining,,(或OLAP 即数据挖掘和赋机分析的有效结合,形成了联机在线分析挖掘。OLAP II数据挖掘属丁二两种不同的 分析I具,有各自的特色和缺点,将它ffJ结合起米,这是因为可以充分发挥各自特色。对于决策者 米说,利州OLAP工具除了可以对当前数据进行深入分析验证其提出的假设和问题之外,也可以验 让数据挖掘得山的预测性结论,防JE偏差。OLAP的在线性体现在与用户的交互和快速响应上。多 维性则体现在它建立在多维视图的基础上。用户积极参与分析过稃,动态地提出分析要求、选择分 析算法,对数据进行由浅及深的分析。DM与OLAP不同,主要体现在它分析数据的深入和分析过程 的臼动化,自动化是说,其分析过程不需要用户的参与,这是它的优点,也 正是它的不足,因为在 实际中,崩户也希望参与到挖掘中来,如只想对数据的某一子集进行挖掘,以及对不同抽取、集成 水平的数据进行挖掘,还有想根据自己的需要动态选择挖艟ll算法等等。由此可见OLAP'-jDM各有所 长,如果能将二者结合起米,发展一种建立在OLAP和数据仓库基础上的新的挖掘技术将更能适应 实际的需要。而OLAM上E是这种结合的产物。也是这种新型的决策_[具发展的方向。但是建立在庞 人数据库或数据仓库基础上的OLAM在实现过程中面临的最大挑战是执行效率的提高和对用户请求 的快速响应,目前还没有OLAM的产品出现。 2(5(4基于数据仓库的数据挖掘 1(基丁数据仓库的数据挖掘的体系结构【8l 孵 ―― l知识库P 一南晶,, ,一 幽2(1基丁J数据仓库的数据挖掘的体系结构 r面分别介纠再土要模块的功能。 1 数据挖掘系统管理器:数据挖掘系统管理器控制亓管理知识发现过程。分析员的输入和知 识J芊中的信息,用丁驱动以F三个过程:数据选择过榉、挖掘算法的选择和使_【 J过程、模式评作过 群。 7 东南人学帧l学位论史 21知识库和分析员的输入:知识序源丁多方面的必须的信息。分析员可以将元数据输入到数 据仓序中,以便描述数据仓库的数据结构。此外,分析员还要1生知识库中输入其它相关的数据知识, 如数据的关键字段、需求规则、数据层次等,以便按一种有效的方式指导信息的发现,减少可能丢 火的有_ J模式和关系;分析员还要做出权衡,存储新的发现结果,以提高知识发现的能力。 3 DB接口 数据仓库的数据库接口 :数据挖掘系统利_ j数据库的查询机制从数据仓库中抽取数 据。知识库中的元数据指导数据庠接口正确地组织数据结构以及数据结构在数据仓库中的存储方 式。 4 数据选择:确定从数据仓库中需要抽取的数据及数据结构。知识库指导数据选择构f1选择 要抽取的数据及抽取的方式。如果只需要示例数据,数据选抒构件必须有能力选择恰当的随机示例。 此外,它还要选择算法所需的数据类型,并将数据类型输入到算法中。 5 知识发现引擎:知识发现引擎将知识库中的挖掘算法提供给数据选择构件抽取的数据,其 目的是要挖掘数据元素间的模式和关系。主要使用的方法有信息论的方法、集合论的方法、仿生物 的方法、公式发现的方法、统计分析的方法等。 6 模式评估:分析员根据某种兴趣度度量识别表示知识的真正有趣的信息模式。用于模式评 估的技术有支持度度鼍、置信度度蕈等。 2(基丁(数据仓序的数据挖掘的主要特征 由丁数据仓库本身只有与,般数据库不同的特点,使得基丁数据仓库的数据挖掘技术具有了许 多新的特祉,这些新的特征主要体现如F四个方面„J。 ”规模庞人:数据仓序中集成和存储着来自若干分布、异质的信息源的数据。这些信息源本 身就可能是一个规模庞人的数据库,可想而知数据仓库会有比一般数据库系统更大的数据规模。在 安徽华茂数据库系统中,采刚分布式数据库系统,数据分布在不同的数据库中,涉及到纱线质量的 数据库两个庞人的数据库中 纺部试验、技质办公室 ,这两个数据库规模都比较庞大。 2 历史数据丰富:传统的数据库系统为了获得最大的执行效率,往往存储尽可能少的数据鼙。 闪为拥有的数据越多,数据组织、重构、浏览、索引和监控的难度越大。传统数据库系统在“时间” 轴上的长度很有限。比较而言,数据仓库的根本特征之一就是进行欧时间的历史数据存储,这使得 我们可以进 i数据长期趋势的分析。 ‘ 3 数据集成和综合性高:从纺织企业的角度看,数据仓库集成了整个生产过程中的全面的、 综台的数据。数据挖掘要面对的是关系复杂的纱线质量的知识发现。从这一点上讲,基了二数据仓库 的数据挖掘能更好地满足高层战略决策的要求。而且,数据仓库机制大大降低了数据挖掘的障碍, 一般进行数据挖掘要花人鼋的精力在数据雕凿阶段。而在数据仓库中数据已经破充分收集起来,并 进行了帮理、合并,有些甚至还进行了初步的分析处理。 4 实时的杳淘支持:数据仓库是面向决策支持的。数据仓库的体系结构努力保证查询和分析 的实时性。而一般的联机事务处理系统主要要求更新的实时性,对查询的性能要求相对较弱。一般 的数据仓库设计成只读方式(最终埘户不能直接更新数据仓库。数据更新由专门的一套机制保证, 通常由系统臼动更新和管理员控制来协同完成。数据仓库对查询的强人支持使得数据挖掘的效率更 高、挖掘的过拌实时交且,使得决策者的思维保持连续,进而有可能挖掘山更深入、更有价值的知 识。 2(6本章小结 本章土要介绍了数据仓库产生的背景、数据仓库的含义及特点、数据仓库的体系结构、。联机分 析处理 OLAP 以及数据挖捌的一些相关知识和概念。通过对数据仓库的这些基本知识的介鲋及其数 据仓序的一些概念性的介绍,为本课题以后的基r纺织企业纱线质量的数据仓库的构建奠定理论基 础。 8 第二审数据仓库’j数崩挖掘 本论文研究的是纨织企业纱线质草的数据挖掘,而纱线质鼙数据除了本身的数据晕庞大、数据 笑系复杂筲特点外,本身也1字在一些行业的特性(比如一个系列的纱线品种名称在各道f序中不同 筲,所以论文的着眼点在尤构建一个基丁I纱线质域方面的数据仓库。怎样结合纱线质鼙的特点,把 数据仓库的相关概念和知识应用到实际的构建数据仓库的过稃中去?这是论 文成败的一个关键。所 以,上述数据仓库、数据挖掘的一些基本概念和基础知识是十分重要的。 9 东南人学硕I学位论文 第三章基于纱线质量的数据仓库的建立 3(1前言 在掌握和理解数据仓库、数据挖掘的基础上,开发一套基于纺织企业纱线质量的数据仓库的数 据挖掘系统是本深题的目标。本章探索性地建立基于纱线质营的数据仓库,首先根据现在运行的纱 线质晕数据提取一些重要的土题建立多维数据库,随后进行建立数据仓库的模型设计、OLAP模型 设计笆儿个部分。本章将详细介纠整个模型的开发过程及系统的功能。 3(2数据库系统介绍 3(2(1系统背景概述 1998年,安徽华茂纺织股份有限公司改革进入到一个新的发展阶段,公司通过了IS09000质量 体系论证,并对公司的机构进行了合理的调整。随着现代企业 管理制度 档案管理制度下载食品安全管理制度下载三类维修管理制度下载财务管理制度免费下载安全设施管理制度下载 不断建立和完善,企业管理 的深化和创新对企业管理l‘竹提出了新的目标和要求。在激烈的市场竞争中,为了使企业立于不败 之地,加强企业管理,提高企业现代化管理水平是当务之急。管理的核心是决策,丽决策离不开信 息。冈而,为了进一步提高企业管理水平,决定进行公司的计算机信息化【:程建设。 从1999年?tJ2002年,在东南人学自动控制系各位老师的指导F,经过东南人学开发人员与安徽 华茂纺织有限公司全体员r的共同努力,华茂信息化工程一期上稃建设圆满完成,初步建成了一个 基下-ERP框架的管理信息系统。除数据库和网络两个支持分系统外,前期信息化系统主要完成了如 F信息化8人分系统建设:物流管理、生产计划经营管理、技术质鼙管理、设备及能源计鼍管理、 人事管理、办公臼动化、财务管理和综合查询。这些系统的正常投入使用,极大地调动了广火企业 员J(使用计算机处理日常事务的热情。广大员工对企业信息化提出了更高需求,在此背景F,安徽 华茂纺织有限公司狂2004年起开始实施面向生产的计划调度、T艺设计以及内部物流的企业深层次 信息化建设l作,主要解决生产智能调度和工艺计算机辅助设计问题,同时进一步以条形码方式完 善企业内部的物流系统。 0 第二章草r纱线质量的数据仓库的建证 总体J 数据序分系统 : 3 网络分系统 ? 上 上 上 』 纺 织 条 信 生 纱 布 码 息 产 二l: 1( 物 化 智 艺 艺 流 能 C C 管 期 调 A A 理 J: 度 分 D D 分 拌 分 分 系 建 系 系 系 统 设 统 统 统 系 统 图3―1系统总体结构功能图 幽3―2为企业信息化一期完成的系统 信息化一期工程建设项目 幽3―2信息化一期工程建设项目系统划分 ,期项目是整个华茂MIS的基础,给整个管理信息系统提供信息,基本上完成了数据处理的功 能, 数据处理的功能土要收集全公司方方面面的信息,储存在数据库中,升且能够根据管理人员 提供的统计方法、思路利刚计算机对相大的数据进行加_[(实现各种报表功能,为决策者提供多样 化的赉洵方法,满足决策的基本需求。如果这个部分不能给其他部分提供足够的数据支持的话,整 个系统将无法发挥效果。 华茂集团的土营产业是纺织业,属丁I劳动密集犁行业,其数据量相当庞大,数据处理任务1E常 繁重,一期l稃根据调研、公司羽I开发项目组的共同协商,最终确定数据处理部分由物资、人事、 技术质域、设备、生产管理、销售、成本奇询、综合奁洵等一些主要模块组成。其中,数据处理晕 最繁重的是技术质量管理模块,又分为纺部、织部、棉检、成检、技质办公室管理五个子模块,如 F幽3(3。 东南人学坝f学位论文 图3―3技术质量管理模块 竹者K期从事技术质苗管理五个模块的维护]:作,熟悉原来数据库系统特别是技术质簟管理的 无个模块,从中发现一期系统经过接近5年的运行管理,积累了大量的历史数据,由于考虑到系统 的运行速度和奇询效率,原系统把涉及到人茸历史数据的表导入到历史库中,而只是把最近一年的 数据用丁(齐洵和统计,造成人量的历史数据无法有效利用,而本章就是把原来一期中纷部试验和技 质办公室模块中涉及有关纱线质鼍的历史数据提取出来,建立数据仓库,并加以数据挖掘。 其中纺部试验llol模块主要功能模块如下: ? 前纺原始数据录入: 包括:重颦原始数据录入、萨氏条干原始数据录入,电子条干原始数据录入、前纺其他原始数 据录入。 ? 后纺原始数据录入 包括:评尊相芙原始数据录入、断头原始数据录入、络筒原始数据录入、后纺其他原始数据录 入。 ?前纨台帐奋询 包括:重甘台帐查询、萨氏条干台帐查询、电子条干台帐查询、粗纱台帐查询、棉网台帐夯询、 前纺其他数据台帐查淘。 ?后纺台帐杏询 包括:评笛相天数据台帐夯询、断头台帐奄询、评等结果查询、后纺其他数据台帐奁询。 ?报表生成 包括:前纺日报生成、日报生成、月报生成、年报生成。 ?综合报表卉询 包括:前幼日报,日报、月报、年报壳询、等级报表、守笑标准、指标完成情况。 ?系统维护 包括:定靛维护、权限维护、品种维护、机型维护。 从上面功能模块中,可以看出涉及到纱线质餐数据的录入主要包括前纺原始数据录入和后纺原 始数据录入,而台帐和报表是根据原始数据录入形成的。在华茂集团,前纺和后幼的数据录入每天 都在进行,经过近5年的平旱序运行,数据苗相当人,有些表中的记录已经达剑白万数草级的稃度, 这些数据刚好为数据挖掘提供了良好的数据游。 3(2(2基于Client,Server的系统体系结构 华茂MIS麻川系统采_[ j 分是由多个HJ户共享的信息与功能,这部分称为服务器部分;另一部分是为每个州户所专有,称为 客户部分。客户部分负责执行前台功能(如管理垌户接口、数据处理和报告请求等。而服务器部分 执i-后台服务,如管理共享外设,控制对头享数据库的操纵、接受并应答客户机的请求等。这种体 12 第二章皋十纱线质量的数据仓库的建立 系结构将一个应用系统分成两火部分,由多台计算机分别执行,使它们有机地结合钍一起,协同完 成帮个系统的庶用,从而丛剑系统中软、埂f, 资源最人限度的利用。 图3-4应用系统Client,Server结构图 应用系统基本运行关系体现为“请求,响应”的应答模式。每当用户需要访问服务器时就由客 户机发出“请求”,服务器接受“请求”并“响应”,然后执行相应的服务,把执行结果送同给客 户机,由它进一步处理后再提交给用户。 任何一个应用系统,从简单的单机系统剑复杂的网络计算,它都由三部分组成:显示逻辑部分 表示层 ,事务处理逻辑部分 功能层 和数据处理逻辑部分 数据层 。表示层的功能是实现与H】户的 交且,功能层的功能是进行晟体的运算和数据的处理,数据层的功能是实现 对数据库中的数据进行 夯啕、修改、更新等任务。由于Client,Server结构被设计成两层模式,显示逻辑和事务处理逻辑部 分均被放在客户端,数据处理逻辑和数据库放在服务器端,从而使客户端变得很“胖”,成为胖客 示。 客户机 服务器 同 。r] 事务 数据 不 【]一? 处理 处理 逻 数据库 辑 、 逻辑 逻辑 t―m 一 71 ( 图34Client,Server结构的数据库系统 在MIS开发中利川这种Client,Server结构其有以下的优点: 1(系统的联机事务能力人人提高:采_I jClient结构,使MIS合理的划分数据和功能,均衡分 间,芹且能增加州户数节。 得剑增强。 端进行,而川户在Client端根据授权来使用Server端的数据。这样为数据提供了强有力的安全保让。 同时,对数据的可靠性管理以及维护也带来了方便。 4(充分利H 各种资源,提高了M1S的应用开发效率。 3 垄堕叁兰型!!兰些丝皇 3(2(3数据库系统介绍 Server Server是 2000。SQL 华茂MIS后台数据序管理系统 DBMS 采用Microsoft公司的SQL Server是一种笑系型数据库管理系统,能处理大晕的数据和管理众多的并发用户,保证 管理。SQL 了数据的完粘性,升提供许多高级管理和数据分布能力。SQL 2000的安全系统,有效的 能轻松的进 了服务器的维护币l管理,而且该软件所提供的基于Windows 提高了服务器的安全性能。 数据库系统采_峒分布式管理,考虑将整个数据库系统分为专业数据库、公共数据库两个层次, 每个层次有若干数据库组成,分别满足数据处理、共享数据的要求,依次逐层浓缩 Downsizin曲。 1(专业数据庠 或称基础数据序 专业数据『午是各专业分 子 系统业务信息的来源,也是建立公共数据库和数据仓库的基础Il„。 以数据类为基础对基础数据进行划分,将彼此关系密切的数据类归纳后划分到一起,再考虑剑 分 子 系统划分的边界,晟后形成若干数据群体,分别放入相应的专业数据库,为分 子 系统所专_Hj。 一个分 子 系统可以有若干个专业数据库。 专业数据J芊的数据管理范闱,包手舌仅为该专业分 子 系统使H;I 的数据、该专业分 子 系统生成并 保存的数据、以及取自公共数据库为该专业分 子 系统常用的数据。根据数据就近存放的原则。专 业数据库一般放住所属分 子 系统内。 华茂MIS建立了如下专业数据库: 人事管理数据库 物资管理数据库 统计数据库 技术质彗办公室数据库 技术质餐棉检数据库 技术质鼍纷部数据库 技术质苗织部数据库 技术质苗成检数据库 成本核算数据库 (,各管理数据庠 销售数据库 这些数据『芊分别对应于一定的分 子 系统。 2(公共数据库 或称共享数据库 把各专业数据库中共用性强、综合性强、使用范嗣广的数据提取山来绸成公共数据库,按照不 同的公Hj范同,还可以设置若干个公用数据库,合理设置公闱数据库,可以降低分系统之间的耦合 度。 公共数据库的数据通常包拓所有跨分系统使用的数据、反映整个企业生产和经营状况的关键数 据、以及由公共数据库管理能有助于整个管理信息系统运行的数据。 公共数据库一般放住适当集中的侍置,可以为若干个分系统,甚至全局所公用,它也是建立数 据仓『荦的基础。 此外(住设置公共数据庠时,必须注意数据的宜全性,对共享的范围和使用权限作一定的限制, 以避免重要数据的泄密、丢火或遭剑破坏。 14 第二章皋于纱线质量的数据仓库的建’’, 3(3基于纱线质量的数据仓库的开发 3(3(1数据仓库开发应用的特点 数据仓库的开发应用像生物一样具有其特有的、完移的生命周期,数据仓库的开发应用周期可 以分成:数据仓库的规划分析、数据仓库的设计实施和数据仓库的使刚维护三个阶段”1。 这三个阶段是一个不断循环、完善、提高的过稃。因为,一般情况F数据仓库系统不可能在一 个循环过程中完成,而是经过多个循环开发,每次循环都会为系统增加新的功能,使数据仓库的应 川得剑新的提高。圈3-6是对数据仓库开发应用生命周期的描述。 数据仓库规划分析阶段的一r作主要内容包括:调查、分析数据仓库环境,完成数据仓库的开发 规则,确定数据仓库开发需求;建立包括实体 乏系图、星犁模犁、雪花模珲!、元数据模型以及数据 源分析的土题阿数据模型,并根据主题耳数据模犁开发数据仓库逻辑模刑。 数据仓库设计实施阶段的上作内容主要包括:根据数据仓库的逻辑模型设计数据仓库体系结 构;设计数据仓库和物理数据库:用物理数据库的元数据填充元数据库;为数据仓库中的每一个目 标列确认数据抽取、转换与加载的规则,开发或购买_f j于数据抽取、清洁、变换和合并的中间件; 将数据从现有系统中传送到仓库中,填充数据仓库并对数据仓库进行测试。 数据仓库使用维护阶段的工作内容主要包括:对数据仓库的用户进行培训、指导;将数据仓库 投入实际席用;在应用中改进、维护数据仓库:对数据仓库进行评价,为F一循环开发提供依据。 图3(6数据仓库的生命周期开发过程 数据仓库的开发特点 1(数据仓库开发是从数据出发的 创建数据仓序是在原有数据库系统中数据的基础上进行的,即从存在丁业务处理系统环境中的 数据山发进行数据仓库的创建。这种从已有数据山发的数据仓库设计方法称为“数据驱动”的设计 东南人学硕I学位论立 方法。“数据驱动”的设计方法就是利用以前所取得的】。什成果进行系统建设,这就要首先识别当 前系统与以前系统的“共同性”,即在进行数据仓库设计前,需要知道原有的数据库系统中已有什 么,它ffJ对当前系统设计有什么影响,要尽可能利刚已有的数据、代码等,而不是全部从头开始做。 “数据驱动”设计方法的中心是利用数据模型有效地识别原有数据库中的 数据平lI数据仓库中的土 题数据的“共同性”。 2(数据仓库使川的需求不能在开发初期明确 面向应用的数据序系统设计往往有,组较确定的应月j需求,这是数据库系统设计和开发的出发 点平?基础。而在数据仓库环境中,并不存在类似业务处理环境中的同定且较确切的物流、数据处理 流和信息流,数据的分析处理需求更加灵活,没有闶定的模式,甚至可以说用户自己也对所要进行 的分析处理不能事先确定。冈此,在数据仓库的开发初期往往不能明确了解数据仓库川户的使用需 求。 3(数据仓库的开发是一个不断循环的启发式过程 数据仓库的系统开发是一个动态反馈启发式的循环过程。一方面,数据仓库的数据内容、结构、 粒度、分割以及其他物理醍计府根据用户所返同的信息不断地调整和完善,以提高系统的效率和性 能;另一方面,通过不断地理解_ j户的决策分析需求,不断地进彳了数据仓库的调整和完善,以求为 圳户提供更准确、更有效的决策信息。 3(3(2数据仓库的开发模型 在创建数据仓库时,需要使用各种数据模型对数据仓库进行描述。数据仓库的开发人员依据这 些数据模礓,才能开发山一个满足H 户需求的数据仓库。数据仓库的各种数据模型在数据仓库开发 中的作用十分明显,主要体现在:模型中只含有与设计有关的属性,这样就排除了无关的信息,而 突出了与任务相戈的重要信息;使开发人员能够将注意力集中在数据仓库开发的主要部分;模型有 更好的适应性,更易于修改,当用户的需求改变时,仅对模型做出相应的变化就能反映这个改变。 在数据仓库的开发中所采用的模犁主要有:概念模型、逻辑模型、物理模理、元数据模型、粒 度模型和聚集模型”j。 图3(7数据模型关系图 数据仓库的殴计也是住概念模掣、逻辑模刑羽I物理模掣的依次转换过稃中实现的。什为数据仓 库的灵魂――元数据模掣则白始至终伴随着数据仓『牢的开发、实施与使用。元数据模掣的构建、实 施与使H 是不可能脱离数据仓序的概念模型、逻辑模犁和物理模型的设计实施的。粒度模型和聚集 6 第二章毕十纱线质量的数据仓库的迎口 模删也在数据仓库的创建中发抨着指导的竹 j,指导着数据仓序的具体实现【ll】。 3(3(3数据仓库的概念模型设计 1(概念模碘的需求分析 从上面的系统介绍中,本章主要是建立纱线质茸的数据仓库,其数据主要来自上图3-2信息化一 期r:拌建设项目的技术质量管理模块,其中技术质晕管理模块又分成五个子模块,分别为原棉检验、 纺部试验、织部试验、成品检验和技质办公室,如上图3―3。 而这次建立数据仓库的数据主要从纺部试验和技质办公室模块中提取,这些模块运行多年,而 且涉及剑纱线质草的人颦数据,选取重要的纱线质营项目确定数据仓库的主题是建立纱线质颦数据 仓库的基础。所以在进行数据仓库的概念模型设计前必须要了解用户的信息需求,就是要对许多纱 线质量项i7进行分析,哪些是刚户特别关心的,而设计人员根据用户需求结合原始数据库系统进行 分析,判断是否符合建立数据仓库的条件,并且分析是否存在一些潜在信息,这是一个关键点,因 为即使某个质颦项目非常重要,而对应的数据不完罄,或者缺少与项目的对应信息,就无法建立数 据仓库。完成上面的需求调查,就可以进行建立数据仓库的概念模型了。 2(概念模刑的设计 普通业务数据库的设计采用传统的E-(R图设计方法,并且有严格的数据规范,这可以保证灵活 性和存储的高效性,但对于数据仓库设计,主要是为了提高快速访问的效率,这样就要牺牲灵活性 和存储的高效性。数据仓库的特点就是结构越简单,性能就越好。数据仓库设计主要采用多维设计 方式。 1 旱犁模砸 厚刑模犁【61是最常用的数据仓库设计结构的实现模式(它使数据仓库形成了一个集成系统,为 晟终川户提供报表服务,为用户提供分析服务对象。数据仓库的拓扑结构是多变的,从各种数据源 中提取数据,加载到数据仓库中。这个数据仓库可以用于填充各种面向过程的数据集市,这些数据 集市往往组成犀犁模璎的拓扑结构,以达到较高的查洵效率。星型模型通过使用一个包含主题的事 实表和多个包含事实的tt,r规化描述的维度表米支持各种决策查询。星型模型可以采用关系刑数据 库结构,模犁的核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表迎接起来, 各个维度表都连接剑中央事实表。维度表中的对象通过事实表与男一维度表中的对象相关。通过事 实表将多个维度表进行关联,就能建立各个维度表对象之间的联系。每一个维度表通过一个主键与 事实表进行迎接,如幽3(8所示。 图3(8星犁模掣的结构示意图 事实表主要包含了描述特定项目的数据,比如纱线质颦中细纱断头,其中的断头的度蟮值有 7 东南人学砸I一学位论文 细纱断头总数、机械冈素断头数等。一般怙况F,事实表中的数据不允订修改,新的数据只能简单 的汝加剑事实表中。维度表土要包含了存储在事实表中数据的特征数据。每一个维度表利川维度关 键字通过事实表中的外键约束丁(事实表中的某一行。实现与事实表的关联,这就是要求事实表中的 外键不得为空,这与一般数据库中外键允许为空是不同的。这种结构使用户能够很容易地从维度表 中的数据分忻开始,获得维度关键字,以便连接剑中心的事实表进行查询,这样就可以减少在事实 表中扫描的数据鼍,以提供查询性能。 21雪花模氆 雪花模掣161是对展掣模犁的扩展,每一个维度都可以向外迕接剑多个详细类别表。在这种模式 中,如图3(9所示,维度表除了只有昂型模璎中的维度表的功能外,还连接上对事实表进行详细描述 的详细类别表,详细类别表通过对事实表在有芙维上的详细描述达到了缩小事实表,提高杳询效率 的目的。 图3―9雪花模型结构示意图 雪花模删对星犁模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。雪花 模型的维度表中存储了正规化的数据,这种结构通过把多个较小的标准化表 而不是星型模型中的大 的1r标准化表 联合在一起来改善查询性能。由于采取了标准化及维的低粒度,雪花模型提高了数据 仓库府用的灵活性。 3(以纱线质窜为例建立的最型模璎 选取纱线质管中贝有代表性的主题建立星叩J模型,如F圈3,10和图3―12。 幽3(10以细纱断头为事实表的星犁模型 对图3(10进j-细化得剑细纱断头主题的帚型模型,如图3(11。 第三章皋十纱线质量的数据仓库的建矗 图3(11细纱断头主题星犁模型 幽3(12以纱织疵为事实表的早型模删 3(3(4数据仓库的逻辑模型设计 尽管麻Hj帚掣模掣可以在概念模掣设计中建立数据仓库的概念模犁,但是无法育接依靠概念模 掣实现数据仓J芊的物理模掣,还需要依靠逻辑模删作为概念模硝剑物理模犁转换的桥梁。数据仓库 的逻辑模掣应该与数据仓J车物理实现时所使J J的数据库有关七。由丁纱线质彗数据仓库是建立在纺 9 东南人学顺I。学位论文 部试验,之系数据库基础上,因此,数据仓库设计过稃中采川的逻辑模式主要是关系模犁。利_ j关系 模刑不但可以创建早刑模刑中指标实体的犬系模式(而且还可以创建帚型模璎中的维度实体和详细 类别实体的天系模式。 1(分析土题域 盘概念模型设计中,已经确定了几个基本的主题域,如细纱断头、纱纵疵等,但是数据仓库的 设计是一个循环的过栏,在进行数据仓库的设计时一般是一次建立一个主题 或多个主题。所以,在 建立数据仓库的多个基本主题域时,要对在概念模型设计阶段中确定的多个基本主题域进行分析, 从中选抒首先要建立的土题域。 在纱线质域数据仓库概念模型设计中,确定细纱断头、纱织疵、细纱重量、萨氏条干等比较重 要的项目竹为分析土题域。 2(粒度层次和聚集的确定 在数据仓库的逻辑设计中还要解决的,个重要问题是决定数据仓库粒度的层次划分和聚集的 确定,粒度层次的划分与聚集确定的适应与否直接影响纠数据仓库中的数据颦和信息杏询效果。 所谓粒度是指数据仓序中数据单元的详细稃度和级别。数据越详细,粒度就越小。级别也就越 低;数据综合度越高,粒度就越大,级别也就越高【6J。适当划分粒度,首先要侍算数据仓库中需要 建立的表数目,估算每个表的人致行数,通常需要估计行数的上下限。所以,粒度的划分是由总的 行数而不是总的数据壤来决定的。 一般怙况F,如粟表的数据行数在第一年就达剑了100000行左右(数据仓库只有单一的粒度就 不是太合适了,应该考虑粒度的划分,可以增加一个综合级别。如果数据行超过了1000000行,那 么就要考虑采HJ多重数据粒度。 由丁(用户奋询的质鼙数据一般以月份为单位,但也可能查询某一大具体值。因此,可以建立两 个粒度级别。第一个是低粒度级的,每犬的质量数据都记录下来:第二个是高粒度级的,记录一个 月的累加值,冈此相对某一品种只有一条记录。采Hj高粒度存放在数据仓库中,供技术质量人员分 析,可以提高杏询效率,及时分析质量情况,便于考核,同时节省存储费用。 确定了数据仓库的粒度模型后,为提高数据仓库的使用性能,还需要根据用户的要求设计聚集。 数据仓库中各种各样的聚集数据主要是为了使用户获得更好的查询性能,因此聚集模型的好坏将在 很人程度上影响剑数据仓库的最终使_【 j效果。 在进彳了聚集模型设计时应该注意将聚集数据存储在其事实表中,并与其底层数据相区别,每一 个不同的聚集必须有其独特的事实表存储。此外,在设计聚集模型时应该注意依附于聚集
本文档为【纺织企业纱线质量的数据挖掘研究(可编辑)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_005190
暂无简介~
格式:doc
大小:79KB
软件:Word
页数:0
分类:生产制造
上传时间:2017-11-11
浏览量:10