关闭

关闭

封号提示

内容

首页 云计算中的大数据及其处理.ppt

云计算中的大数据及其处理.ppt

云计算中的大数据及其处理.ppt

上传者: 一剑倚天寒 2013-11-29 评分 5 0 242 33 1099 暂无简介 简介 举报

简介:本文档为《云计算中的大数据及其处理ppt》,可适用于IT/计算机领域,主题内容包含云计算中的大数据及其处理报告资料云计算中的大数据及其处理报告资料五跨界服务技术体系五跨界服务技术体系跨界服务三大信息支撑技术为跨界服务解决大数据处理符等。

云计算中的大数据及其处理报告资料云计算中的大数据及其处理报告资料五跨界服务技术体系五跨界服务技术体系跨界服务三大信息支撑技术为跨界服务解决大数据处理问题《Nature》和《Science》近期出版专刊《BigData》和《DealingwithData》Yahoo首席科学家Raghu将“数据密集型计算”、“CPU密集型计算”列为云计算两大支撑技术美国权威IT咨询公司Gartner将大数据及其分析列为年第一大技术趋势五跨界服务技术体系五跨界服务技术体系跨界服务三大信息支撑技术语义计算为跨界服务解决智能交互问题五跨界服务技术体系五跨界服务技术体系跨界服务三大信息支撑技术为跨界服务解决复杂服务管理问题跨越信息、商业和管理的交叉学科利用信息服务与计算技术来有效地创建、营运与管理商业服务并最终消除商业模式和信息技术之间的“鸿沟”。三大旗舰学术会议ICSOC、ICWS、SCC。云计算时代挑战:巨大数据计算云计算时代挑战:巨大数据计算大数据计算是指规模在P级()E级()Z级()的极大规模数据处理。又指传统文件系统、关系数据库、并行处理等技术无法有效处理的极大规模数据计算。*又有称为BigEnoughComputing(相对大、足够大)或ExtremeScaleComputing(极限级计算)指相对于计算设备能力足够大数据量的计算如移动设备上的T级数据处理等内存级的T级数据处理等。麦肯锡咨询机构的大数据定义麦肯锡咨询机构的大数据定义“Bigdata”referstodatasetswhosesizeisbeyondtheabilityoftypicaldatabasesoftwaretoolstocapture,store,manage,andanalyze……强调是传统数据库技术和工具无法处理的。Wedon’tdefinebigdataintermsofbeinglargerthanacertainnumberofterabytes(thousandsofgigabytes)……强调“Big”只是个相对概念。Alsonotethatthedefinitioncanvarybysector,dependingonwhatkindsofsoftwaretoolsarecommonlyavailableandwhatsizesofdatasetsarecommoninaparticularindustry……强调“Big”对于不同领域或工具软件来说可能差异很大。麦肯锡咨询公司(全球最大战略咨询公司)Bigdata:Thenextfrontierforinnovation,competition,andproductivity,*IBM给出的大数据计算的三大特征IBM给出的大数据计算的三大特征*Bigdatacomesinonesize:largeEnterprisesareawashwithdata,easilyamassingterabytesandevenpetabytesofinformationOftentimesensitive,bigdatamustbeusedasitisstreamingintotheenterpriseinordertomaximizeitsvaluetothebusinessBigdataextendsbeyondstructureddata,includingunstructureddataofallvarieties:text,audio,video,clickstreams,logfilesandmoreProblemSpace(修改:现代服务典型领域中文版)ProblemSpace(修改:现代服务典型领域中文版)*BinaRamamurthy*DatascaleComputescalePayrollKiloMegaGigaTeraMFLOPSGFLOPSTFLOPSPFLOPSPetaDigitalSignalProcessingWeblogMiningBusinessAnalyticsRealtimeSystemsMassivelyMultiplayerOnlinegame(MMOG)Othervariables:CommunicationBandwidth,ExaEarthObservationMedicalImage典型应用与问题空间(现代服务行业)典型应用与问题空间(现代服务行业)计算规模MegaGigaTeraMFLOPSGFLOPSTFLOPSPFLOPSPetaExa数据规模地球观测数据规模接近E级计算处理能力要求在P级大内存需求在T级传输带宽需求在G级。医学图像数据规模P级计算处理能力要求在T级大内存需求在G级传输带宽需求在M级。D游戏数据规模接近P级计算处理能力要求在T级大内存需求在T级传输带宽需求在G级*WebLog数据规模P级计算处理能力要求在T级大内存需求在G级传输带宽需求在M级。智能交通数据规模P级计算处理能力要求在T级大内存需求在T级传输带宽需求在G级商业智能分析数据规模P级计算处理能力要求在T级大内存需求在T级传输带宽需求在M级。*四跨界服务的不同视角信息视角四跨界服务的不同视角信息视角大数据的跨界处理四跨界服务的不同视角信息视角四跨界服务的不同视角信息视角复杂服务的跨界管理大规模复杂服务在跨界服务的应用和运营中如何实现共享、调用、组合与协同支持跨界商务过程的资金流、数据流、物流、事务流、工作流之间的高效协作。复杂服务的跨界管理四跨界服务的不同视角信息视角四跨界服务的不同视角信息视角如何为企业的跨界服务设计、实现、运行、维护提供全生命周期的云服务平台满足跨界应用对平台提出的大开放、高动态、强弹性、多租户的要求。弹性开放平台的跨界支撑全世界上传图片的处理全世界上传图片的处理Facebook每个月都有亿照片上传如果把每张照片都要和个人情况等信息综合关联起来需要分钟完成一张照片四面体全面信息的标注和处理以Vista的规模(一万人)需要年才能完成解决的方法是群体模式:Facebook所有亿用户都对自己上传的照片加以标注约一个半小时内可以完成什么是大数据什么是大数据当数据的规模和性能要求成为数据管理分析系统的重要设计和决定因素时这样的数据就被称为大数据不是简单地以数据规模来界定大数据要考虑数据查询与分析的复杂程度以目前计算机硬件的发展水平看针对简单查询(如关键字搜索)数据量为TB至PB级时可称为大数据针对复杂查询(如数据挖掘)数据量为GB至TB级时即可称为大数据智慧医疗*数据爆炸智慧医疗*数据爆炸摩尔定律:每个月人类存储的信息量是全部历史信息量的总和!至年超过的信息以电子数据形式存放据推算这一比例在年将达到以上。的数据存放于PC硬盘存放于DVD蓝光光碟存放于磁带仅有存放于服务器硬盘。云计算时代将会有更多数据存储于数据中心。智慧医疗数据的特点智慧医疗数据的特点超大规模为亿人建立电子病历和健康日志每年传感器产生的数据将达到PB级每年亿人次CT扫描产生PB左右的数据……为保证可靠性需要存储数据副本实际存储的数据量数倍于净数据量时空属性:包含时间与位置信息模糊高维数据未必精确和完整:传感器误差网络中断……数据维度高:一次体检可以得到数百项生命体征数据智慧医疗*医疗云与大数据处理技术研究医疗云与大数据处理技术研究技术挑战高可用、易扩展、高性能的数据存储系统适应不同需求的大数据管理与处理平台数据清理与数据加载实时数据检索与复杂数据分析智慧医疗*医疗云与大数据处理技术研究医疗云与大数据处理技术研究技术挑战高可用、易扩展、高性能的数据存储系统适应多种需求的大数据管理与处理平台数据清理与数据加载实时数据检索与复杂数据分析智慧医疗*传统的存储与计算系统传统的存储与计算系统传统的存储系统主要有三类直连式存储(DAS):扩展性有限难以共享网络存储技术(NAS):文件级存储管理扩展性好数据访问效率低存储区域网络(SAN):扩展性好设备管理复杂存储以子系统方式存在与计算资源分离数据传输是重大瓶颈导致“存得下取不出”数据难以共享形成信息孤岛智慧医疗*目前主流的存储系统目前主流的存储系统实现高可用、扩展性与高性能的存储与计算紧密耦合大规模廉价设备互联代替少数高端昂贵设备保持高效率的渐近式可靠增长智慧医疗*存储设备计算系统存储设备存储设备存储设备存储设备存储设备存储设备存储设备存储设备存储设备存储设备存储设备存储设备存储设备存储设备存储设备存储设备存储设备数据传输是大数据处理的关键性能瓶颈数据传输是大数据处理的关键性能瓶颈存储与计算耦合的方式让处理节点能够快速存取保存在本地的数据但是大数据处理中计算资源不可避免地需要访问远程存储的数据成千上万的存储计算节点如何互联?渐进可扩展高对分带宽(bisectionbandwidth)布线方式应尽量简单智慧医疗*数据中心网络:传统树形结构数据中心网络:传统树形结构优点:使用高端交换机与路由器、无需修改网络层与链路层协议、因部署简单而大规模应用缺点:价格昂贵、链路利用率较低、上层结点易成为瓶颈*智慧医疗数据中心网络:胖树结构(FatTree)数据中心网络:胖树结构(FatTree)优点:使用廉价的低端交换机与路由器、高对分带宽、多路径路由缺点:交换机与路由器需使用特别定制的网络层或链路层协议*智慧医疗数据中心网络:直连网络数据中心网络:直连网络优点:使用廉价的低端交换机与路由器(或者完全不需要)高对分带宽多路径路由缺点:主机需使用修改后的网络层或链路层协议物理连接复杂布线困难*智慧医疗数据中心网络:利用新型网络设备数据中心网络:利用新型网络设备利用光学网络交换机、高速无线交换机等优点:降低布线成本高性能缺点:需要额外的设备与网络传输协议智慧医疗*光交换机普通交换机网线光医疗云与大数据处理技术研究医疗云与大数据处理技术研究技术挑战高可用、易扩展、高性能的数据存储系统适应多种需求的大数据管理与处理平台数据清理与数据加载实时数据检索与复杂数据分析智慧医疗*关系数据库曾经是万能的智慧医疗*关系数据库曾经是万能的关系数据模型的优点关系数据模型的优点具有强大的知识表达能力能够方便地为各种对象以及对象之间的联系设计逻辑模型关系代数理论十分完备并且易于实现支持结构化查询语言让用户无需了解数据库的实现智慧医疗*传统关系数据库的特点传统关系数据库的特点重视关系数据模型功能的完整实现原子性、一致性、分离性和持久性优化并发访问性能不重视设计容错的并行化执行引擎对“一次写多次读”的数据进行存储结构优化数据规模增大导致查询执行性能差的问题智慧医疗*大数据管理与处理平台的挑战大数据管理与处理平台的挑战高可扩展性:能够有效利用数百乃至数千个节点高带宽、低延迟的存取访问实时应用如医院的挂号、收费系统等主要涉及小量数据的读取与写入要求后端存储能够快速读写复杂应用如医疗历史数据挖掘等涉及大量数据的读取(一般不涉及写入)要求后端存储实现高吞吐量读取高容错与高可用性:能够应付常态化的出错问题能够针对网络传输瓶颈进行查询优化……智慧医疗*大数据时代关系数据库的困境大数据时代关系数据库的困境实现关系数据模型理论的全部内容同时对所有查询做到高效执行几乎是不可能的同样的查询多种执行方式如何优化执行?数据与查询在变化不存在普适的物理存储结构和查询优化方法数据规模增大原来高效的算法会变得低效实现事务处理要求的原子性、一致性、分离性和持久性(ACID)的开销巨大智慧医疗*能够并行化不意味着高可扩展性智慧医疗*能够并行化不意味着高可扩展性复杂分析查询结果小时复杂分析查询结果复杂分析查询结果小时个节点小时个节点小时?个节点复杂分析查询结果个节点节点失效、网络中断将成为常态!执行过程中出错传统的并行数据库将重新执行整条查询!可能永远也无法完成查询解决之道:合理地做减法()解决之道:合理地做减法()电子病历、健康日志、扫描成像图片等医疗数据一旦写入极少更新对这些数据后续的访问包括实时检索与复杂分析都仅需要进行数据读取针对数据读取进行性能优化移除原子性、一致性、分离性和持久性支持智慧医疗*关系数据库针对事务处理的优化分析型数据库发展现状:发展现状:解决之道:合理地做减法()解决之道:合理地做减法()数量众多的医疗传感器频繁采集数据时产生的数据条数非常多产生大量的小量写操作医疗数据的保存要保证正确性与可靠性因此必须支持原子性、一致性、分离性和持久性支持简单的数据类型和简单查询如键值查询不支持所有的关系数据模型操作如联接查询(Join)等智慧医疗*关系数据库结构化查询的完整支持NoSQL数据库发展现状:解决之道:合理地做减法()解决之道:合理地做减法()为解决查询过程中节点与网络链路失效的问题对查询的每一步子操作都将执行结果写入磁盘(创建检查点)放弃pipeline数据推送优化牺牲部分执行效率换取高容错性智慧医疗*关系数据库的并行查询引擎并行执行查询时的pipeline数据推送机制高容错的并行查询引擎发展现状:解决之道:有效地做加法智慧医疗*解决之道:有效地做加法关系数据库的并行查询引擎在数据推送同时将中间结果写入磁盘高效高容错的并行查询引擎关系数据库的存储结构高容错的并行查询引擎高效可扩展的分析型数据库………………大数据存储管理系统分类大数据存储管理系统分类结构化存储(如关系型数据库与数据仓库):优点:数据结构良好、功能完备、速度快缺点:灵活性差、不易扩展、预处理开销大日志式存储(如HadoopHive):优点:无需预处理、灵活性强、易于扩展缺点:功能较弱需用户介入以提供高级查询功能半结构化存储(如BigTable、KeyValue存储):优点:速度快易于扩展预处理开销适中缺点:功能相对较弱介于前两者之间智慧医疗*医疗云与大数据处理技术研究医疗云与大数据处理技术研究技术挑战高可用、易扩展、高性能的数据存储系统适应多种需求的大数据管理与处理平台数据清理与数据加载实时数据检索与复杂数据分析智慧医疗*医疗数据清理医疗数据清理医疗传感器采集的数据存在误差经常会丢失甚至可能出错直接将原始数据用于数据分析可能引发错误的医疗诊断和护理方案(严重!)智慧医疗*数据加载智慧医疗*数据加载数据加载的挑战数据加载的挑战加载数据的速度必须比产生数据的速度快逐条插入数据太慢应以追加方式批量写入如何更新索引逐条更新索引太慢目前的做法:追加数据之前删除已有索引然后进行索引重建数据不断增多索引重建所需时间会越来越长如何保证加载过程中数据的可用性应允许用户在加载过程中仍然能够写入或更新数据如何缩短数据加载的周期最终达到连续加载智慧医疗*医疗云与大数据处理技术研究医疗云与大数据处理技术研究技术挑战高可用、易扩展、高性能的数据存储系统适应多种需求的大数据管理与处理平台数据清理与数据加载实时数据检索与复杂数据分析智慧医疗*医疗数据的实时检索医疗数据的实时检索与时间有关的查询例如:检索监护对象某一时期段内的全部信息与空间有关的查询例如:检索监护对象在某个区域(如某个医院)内的全部信息与特定属性有关的查询例如:检索监护对象的血压变化历史、用药记录等综合查询例如:检索监护对象在某段时间、某个区域内的某项生命体征数据智慧医疗*数据索引是实时检索的关键数据索引是实时检索的关键实时检索的主要性能要求响应时间短允许高度并发的请求结果准确能够反映最新的数据变化必须了解查询类型预先建立数据索引主要挑战如何为大数据快速创建索引?如何快速更新索引?如何解决索引占用空间过多的问题?智慧医疗*索引的并行快速创建智慧医疗*索引的并行快速创建数据分块创建分块索引创建全局索引数据分块是否均匀是影响并行索引创建速度的关键因素传统的索引更新方法不可行智慧医疗*传统的索引更新方法不可行已有的索引新的数据逐条更新索引太慢需要执行大量随机写操作删除并重新创建索引随着数据量增长会越来越慢不可行索引的快速更新方法示例智慧医疗*索引的快速更新方法示例已有的索引新的数据减少随机写次数大幅度提高更新速度需要设计新的索引结构和索引更新算法按索引组织数据与异构数据副本智慧医疗*按索引组织数据与异构数据副本医疗历史数据的复杂查询与分析医疗历史数据的复杂查询与分析医疗数据统计历年慢性病比例变化各地区心脑血管疾病的分布相似联接查询(SimilarityJoin)根据CT成像图片寻找相似的病例与诊断寻找骨髓移植匹配医疗数据挖掘与预测寻找亚健康状况与职业、性别、年龄等因素的联系预测下一个月各类药品的需求……智慧医疗*复杂查询与分析与实时检索的主要区别复杂查询与分析与实时检索的主要区别通常需要读取大量数据计算时间长需借助医院数据中心完成查询灵活多变难以预测医疗数据挖掘涉及多学科交叉需要医疗、统计、计算机等各领域的专业人士协作完成不能仅依靠并行数据库系统不能提供复杂分析所需的全部功能难以针对特定的查询与分析进行优化智慧医疗*新的并行计算设计范式:MapReduce智慧医疗*新的并行计算设计范式:MapReduceMapReduceGFS与并行数据库的比较智慧医疗*MapReduceGFS与并行数据库的比较水平扩展并行数据库查询速度快(节点以内)缺点:可扩展性差容错性差价格昂贵MapReduceGFS高可扩展开源免费缺点:进行复杂查询时需要专门编写代码垂直扩展网络存储结构数据处理模式“大数据”-社交网络服务的艰巨挑战“大数据”-社交网络服务的艰巨挑战每天数以PB级的数据待处理数据是时间敏感的为了使数据的服务价值最大化流数据应该得到实时处理需管理多种类型的结构化、半结构化与非结构化数据由于数据自由发布社交网络上的数据呈现重复、互补、矛盾、假设等非确定特性面向社交网络服务的“大数据”解决方案情境感知的数据搜索、共享与分析基于自由表非确定数据描述与存储流性数据增量式收集、提取和集成分层多粒度数据动态索引与融合分并布行存处储理HBaseMapReduce大数据管理与服务社交网络服务社交网络大数据日志、评论、图片、音频、视频、流程、动漫、游戏等面向社交网络服务的“大数据”解决方案大规模数据交互学习大规模数据交互学习*基于主题的不确定性个体语义建模多维社会关系度量与语义关系识别基于主题因子图的群体主动学习个体语义主题描述模型动态社会网络关系建模基于主题因子图的多评价指标主动学习用户反馈结果如何有效地对挖掘模型进行改进主动识别哪些用户真正能够提供有用数据“大数据”vs传统关系数据库“大数据”vs传统关系数据库*大数据服务的互连管理新方法探索大数据服务的互连管理新方法探索大数据是资源,不是服务!DataLinkingServiceLinkingSemanticsLinking面向主题的大数据的服务语义封装与本体建模大数据的虚拟化管理手段:注册语义互连管理:面向主题的大数据服务的语义互操作性注册跨语义互连:跨领域跨行业跨主题的语义互连MFIMFI基于MFI的大数据服务的互连管理技术研究基于MFI的大数据服务的互操作性注册存储管理大数据服务MFI(ORGPS)大数据服务主题本体社交网络大数据资源日志、评论、图片、音频、视频、流程、动漫、游戏等大数据混合计算的原创性研究大数据混合计算的原创性研究基于RGPS本体的大数据混合计算混合计算吴文俊(“世纪个交叉科学难题”,pp,科学出版社,)计算和存储的分离,松耦合!在本方法下,底层关系数据库还能用大数据虚拟化:主题本体RGPS组织的服务建模大数据服务虚拟化:大数据服务的语义互操作性注册存储MFI(本体RGPS)大数据服务的发现与主动推荐MFI面向主题与情境个体需求主导的大数据资源利用符号计算

类似资料

编辑推荐

中医入门:一部伤寒医天下.pdf

[冥想5分钟等于熟睡一小时].pdf

禹贡研究论集.pdf

混沌学导论.pdf

二十世纪古文献新证研究.pdf

职业精品

精彩专题

上传我的资料

精选资料

热门资料排行换一换

  • 焊接管理制度.doc

  • 大数据分析调研.doc

  • 蒙古人种.doc

  • 企业会计报表案例分析-阿里巴巴2…

  • 伊索寓言英文版[最新].doc

  • 邓锡侯计倒刘文辉.doc

  • 火灾自动报警系统培训资料.doc

  • 初中语文写作手法表达方式表现手法…

  • 如何做好淘宝运营.doc

  • 资料评价:

    / 60
    所需积分:2 立即下载

    意见
    反馈

    返回
    顶部