关闭

关闭

关闭

封号提示

内容

首页 基于Hadoop的大数据应用分析.ppt

基于Hadoop的大数据应用分析.ppt

基于Hadoop的大数据应用分析.ppt

上传者: 优化 2014-04-22 评分 0 0 0 0 0 0 暂无简介 简介 举报

简介:本文档为《基于Hadoop的大数据应用分析ppt》,可适用于IT/计算机领域,主题内容包含基于Hadoop的大数据应用分析基于Hadoop的大数据应用分析东软基于HADOOP的大数据应用建议内容提要大数据背景介绍HADOOP体系架构基于H符等。

基于Hadoop的大数据应用分析基于Hadoop的大数据应用分析东软基于HADOOP的大数据应用建议内容提要大数据背景介绍HADOOP体系架构基于HADOOP的大数据产品分析基于HADOOP的大数据行业应用分析IDC定义:为了更为经济的从高频率获取的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术。大数据定义及特点大数据对系统的需求Highperformance–高并发读写的需求高并发、实时动态获取和更新数据HugeStorage–海量数据的高效率存储和访问的需求类似SNS网站海量用户信息的高效率实时存储和查询HighScalabilityHighAvailability–高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供*小时不间断服务商业模式驱动应用需求驱动云计算改变了IT,而大数据则改变了业务云计算是大数据的IT基础大数据须有云计算作为基础架构才能高效运行通过大数据的业务需求为云计算的落地找到了实际应用大数据和云计算的关系大数据云计算大数据市场分析大数据市场分析东软基于HADOOP的大数据应用建议内容提要大数据背景介绍HADOOP体系架构基于HADOOP的大数据厂商分析基于HADOOP的大数据行业应用分析大数据主要应用技术Hadoop据IDC的预测全球大数据市场年将达亿美元规模市场发展前景很大。而Hadoop作为新一代的架构和技术因为有利于并行分布处理“大数据”而备受重视。ApacheHadoop是一个用java语言实现的软件框架在由大量计算机组成的集群中运行海量数据的分布式计算它可以让应用程序支持上千个节点和PB级别的数据。Hadoop是项目的总称主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成。优点:可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。经济:框架可以运行在任何普通的PC上。可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。高效:分布式文件系统的高效数据交互实现以及MapReduce结合LocalData处理的模式为高效处理海量的信息作了基础准备。MapReduceHDFSHBasePigChuKwaHiveZooKeeperHadoop体系架构Pig是一个基于Hadoop的大规模数据分析平台Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口Chukwa是基于Hadoop的集群监控系统由yahoo贡献hive是基于Hadoop的一个工具提供完整的sql查询功能可以将sql语句转换为MapReduce任务进行运行ZooKeeper:高效的可扩展的协调系统,存储和协调关键共享状态HBase是一个开源的基于列存储模型的分布式数据库HDFS是一个分布式文件系统。有着高容错性的特点并且设计用来部署在低廉的硬件上适合那些有着超大数据集的应用程序MapReduce是一种编程模型用于大规模数据集(大于TB)的并行运算MapReduceMap:任务的分解Reduce:结果的汇总两大核心设计HDFSNameNode:文件管理DataNode:文件存储Client:文件获取Hadoop核心设计HDFS分布式文件系统NameNode可以看作是分布式文件系统中的管理者存储文件系统的metadata主要负责管理文件系统的命名空间集群配置信息存储块的复制。DataNode是文件存储的基本单元。它存储文件块在本地文件系统中保存了文件块的metadata同时周期性的发送所有存在的文件块的报告给NameNode。Client就是需要获取分布式文件系统文件的应用程序。HDFS是一个高度容错性的分布式文件系统能提供高吞吐量的数据访问非常适合大规模数据集上的应用。HDFS具体操作HDFS具体操作文件写入:Client向NameNode发起文件写入的请求NameNode根据文件大小和文件块配置情况返回给Client它所管理部分DataNode的信息。Client将文件划分为多个文件块根据DataNode的地址信息按顺序写入到每一个DataNode块中。 文件读取: Client向NameNode发起文件读取的请求 NameNode返回文件存储的DataNode的信息。Client读取文件信息。MapReduce映射、化简编程模型根据输入数据的大小和参数的设置把数据分成splits,每个split对于一个map线程。Split中的数据作为Map的输入Map的输出一定在Map端。Map的输出到Reduce的输入的过程(shuffle过程):第一阶段:在map端完成内存>排序>写入磁盘>复制第二阶段:在reduce端完成映射到reduce端分区>合并>排序Reduce的输入到Reduce的输出最后排好序的keyvalue作为Reduce的输入输出不一定是在reduce端。MapReduce是一种编程模型用于大规模数据集的并行运算。Map(映射)和Reduce(化简)采用分而治之思想先把任务分发到集群多个节点上并行计算然后再把计算结果合并从而得到最终计算结果。多节点计算所涉及的任务调度、负载均衡、容错处理等都由MapReduce框架完成不需要编程人员关心这些内容。HBASE分布式数据存储HBase–HadoopDatabase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统HBase位于结构化存储层HDFS为HBase提供了高可靠性的底层存储支持,MapReduce为HBase提供了高性能的计算能力Zookeeper为HBase提供了稳定服务和failover机制Pig和Hive还为HBase提供了高层语言支持使得在HBase上进行数据统计处理变的简单。东软基于HADOOP的大数据应用建议内容提要大数据背景介绍HADOOP体系架构基于HADOOP的大数据产品分析基于HADOOP的大数据行业应用分析Hadoop主要开发厂商 大型企业和机构在寻求解决棘手的大数据问题时往往会使用开源软件基础架构Hadoop的服务。由于Hadoop深受欢迎许多公司都推出了各自版本的Hadoop也有一些公司则围绕Hadoop提供解决方案。Hadoop的发行版除了社区的Apachehadoop外clouderaIBMORACLE等都提供了自己的商业版本。商业版主要是提供Hadoop专业的技术支持这对一些大型企业尤其重要。ClouderaEMC。。。IBMOracleHadoop主要开发厂商CLOUDERA在Hadoop生态系统中规模最大、知名度最高的公司则是Cloudera。年成立的Cloudera是最早将Hadoop商用的公司为合作伙伴提供Hadoop的商用解决方案主要是包括支持咨询服务和培训。Cloudera的客户中倒是有很多知名公司如AOL、哥伦比亚广播公司、eBay、Expedia、摩根大通、Monsanto、诺基亚、RIM和迪士尼等。Cloudera企业解决方案包括Hadoop软件发行版、Cloudera管理器。Hadoop主要开发厂商Hortonworks 年成立的Hortonworks是雅虎与硅谷风投公司BenchmarkCapital合资组建的公司。公司成立之初吸纳了大约名至名专门研究Hadoop的雅虎工程师上述工程师均在年开始协助雅虎开发Hadoop这些工程师贡献了hadoop的代码。Hortonworks的主打产品是HortonworksDataPlatform(HDP)包括稳定版本的ApacheHadoop的所有关键组件。InfoSphereBigInsights是一个软件平台旨在帮助企业从大量不同范围的数据中挖掘商机并进行分析如日志记录、点击流、社会媒体数据、新闻摘要、电子传感器输出甚至是一些事务数据等。BigInsights包括ApacheHadoop发行版、面向MapReduce编程的Pig编程语言、针对IBM的DB数据库的连接件以及IBMBigSheets。IBM通过其智慧云企业(SmartCloudEnterprise)基础架构将BigInsights和BigSheets作为一项服务来提供。客户不必购买支持性硬件也不需要IT专门知识就可以学习和试用大数据处理和分析功能。据IBM称客户用分钟就能搭建起Hadoop集群并能将现有数据转移到集群里面。Hadoop主要开发厂商IBMHadoop主要开发厂商ORACLEOracleBigData机与OracleExadata数据库云服务器以及新推出的OracleExalytics商务智能云服务器为客户提供了一个端到端的大数据解决方案从而为客户在企业内获取、组织、分析大数据以及最大限度地挖掘大数据的价值提供了所需要的一切条件。OracleBigData机是一款集成设计的系统并且针对获取、组织以及将非结构化数据加载到Oracle数据库g之中的整个流程进行优化。OracleBigData机包括开源ApacheHadoop、OracleNoSQL数据库、Oracle数据集成Hadoop应用适配器、OracleHadoop装载器。EMC公司于年发布了自身的ApacheHadoop发行版PivotalHD同时发布的还有一个名为HAWQ的技术通过HAWQ能够将Greenplum分析型数据库与Hadoop分布式架构进行紧密地融合。PivotalHD对ApacheHadoop进行了全面的改造同其他一些Hadoop发行版相比其最大的优势就是能够与Greenplum数据库进行整合PivotalHD和HAWQ让EMC在Hadoop领域更进一步同时将成为EMC大数据战略中的一个重要里程碑。Hadoop主要开发厂商EMC基于在大数据领域的长期技术积累和应用经验英特尔推出成熟的企业级Hadoop发行版为企业和政府部门实现大数据应用提供强有力的平台支持。英特尔在Hadoop上的改进和功能增强为用户提供了一个高性能、高稳定性和可管理的大数据应用实施平台并提供全面的专业支持。在Hadoop软件的英特尔分发版在中国推广的两年多时间里已经在电信行业、智能交通行业有多个成功应用。Hadoop主要开发厂商INTEL东软基于HADOOP的大数据应用建议内容提要大数据背景介绍HADOOP体系架构基于HADOOP的大数据产品分析基于HADOOP的大数据行业应用分析大数据应用行业分析应用可能性电信政府(公共事业)交通金融医疗教育能源(电力石油)纵轴契合度:表示该用户的IT应用特点与大数据特性的契合程度横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性注:该位置为分析师访谈的综合印象为定性分析图中位置不代表具体数值HighMidLowLowMidHigh优先关注行业用户应用特点与大数据技术有较高的契合度在主客观条件上也有较高的应用可能性。值得关注行业用户应有特点与大数据的契合度及应用可能性综合较高适当关注行业用户两个维度暂时都不具备优势可适当给予关注互联网(电子商务)契合度流通零售制造金融行业互联网医疗行业能源行业电信行业大数据行业应用分析互联网行业政府行业互联网行业拥抱大数据的关键因素互联网大数据技术的应用会首先带动社会化媒体、电子商务的快速发展其他的互联网分支也会紧追其后整个行业在大数据的推动下将会蓬勃发展。互联网行业大数据需求分析互联网行业对数据实时分析要求较高例如广告监测、BC业务往往要求在数秒内返回上亿行数据的分析从而达到不影响用户体验和快速准确营销的目的。目前互联网企业面对大数据会普遍感觉到实时分析能力差、海量数据处理效率低、缺少分析方法、分析软件能力差等问题。互联网行业大数据分析面临的主要问题互联网行业Hadoop应用大数据行业应用分析金融行业金融行业互联网医疗行业能源行业电信行业政府行业金融行业大数据发展分析IDC研究显示数据是重要资产的理念已经在中国金融行业形成共识数据的真正价值在于能够洞察企业内部规律数据的洞察力成为金融企业的核心竞争力。在中国金融行业信息化建设中与信息加工密切相关的大数据管理正逐渐成为与核心业务系统建设、渠道建设和前置建设同等重要的领域。  经过多年的发展与积累目前中国的大型商业银行和保险公司的数据量已经达到TB以上级别并且非结构化数据量在迅速增长。金融行业大数据需求背景从未来几年看金融行业在“十二五”时期面临发展方式转型的挑战转型主要集中在三大方面:一建立全面的风险管理体制向严监管转型二从粗放式管理向精细化管理转型三从“利润为中心”向“客户为中心”转型。大数据在加强风险管控、精细化管理、服务创新等转型中别具现实意义是实现向信息化银行转型的重要推动力。金融行业应首先在战略层面对大数据进行规划积极应对大数据时代的挑战推进并建立数据驱动型发展方式。金融行业大数据需求分析摩根大通基于Hadoop的大数据应用摩根大通基于Hadoop的大数据应用已经开始使用Hadoop技术以满足日益增多的用途包括诈骗检验、IT风险管理和自助服务。PB在线存储数据、,个数据库和亿个用户登录账号。Hadoop能够存储大量非结构化数据允许公司收集和存储Web日志、交易数据和社交媒体数据。数据被汇集至一个通用平台以方便以客户为中心的数据挖掘与数据分析工具的使用。Zions银行基于Hadoop的大数据应用Zions银行基于Hadoop的大数据应用数据仓库存储了多个不同类型的数据包括交易日志日志欺诈警报服务器日志防火墙日志和IDS日志跨整个企业进行数据挖掘加快取证调查并提高欺诈侦测以及整体安全性利用Hadoop来存储所有数据并对客户交易和现货异常进行判断对可能存在欺诈行为提前预警的基于Hadoop的安全数据仓库,迅速对来自各种源头的恶意软件威胁作出响应并对抗它们美国地区性银行ZionsBancorp(ZIONS)中信银行信用卡中心基于Hadoop的大数据应用*EMCGreenplum中信银行信用卡中心基于Hadoop的大数据应用未来和基于Hadoop的PivotalHD相融合大数据行业应用分析电信行业金融行业互联网医疗行业能源行业电信行业政府行业提升网络服务质量增强管道智能化更加精准地洞察客户需求增强市场竞争力升级行业信息化解决方案提升客户价值提供数据安全服务在大数据市场建立差异化竞争优势电信行业大数据需求分析中国移动基于Hadoop的大数据应用在中国移动“大云”产品总体架构中分析型PaaS产品底层基于Hadoop数据存储和分析平台在技术路线方面选择数据仓库与Hadoop混搭的方式借鉴关系型数据仓库在传统应用支持方面以及在复杂查询和分析方面的快速响应能力同时也借鉴了Hadoop的非结构化数据处理能力以及存储的低成本。屏蔽Hadoop与数据仓库的使用细节让用户在使用这些数据时尽量无感知在数据的ETL采集预处理环节尽量采用Hadoop与分布式ETL的方式提高数据转换效率同时降低成本。  中国联通已经构建了一个全国集中的一级架构海量数据存储和查询系统:通信用户上网记录集中查询与分析支撑系统在集团公司进行统一部署各个省分仅仅是做数据的采集按照业务实时性将数据传送到集团公司由集团公司统一处理全国所有用户所有上网记录数据都放北京数据中心里在国内电信行业当中也是首创的方式。中国联通成功将大数据和Hadoop技术引入到‘移动通信用户上网记录集中查询与分析支撑系统’。截止到目前已经部署了PB的存储空间。其中PB的存储分布在个数据节点上即每个节点配备TB的存储空间。系统每天有能力处理亿条上网记录。中国联通基于Hadoop的大数据应用大数据行业应用分析政府行业金融行业互联网医疗行业能源行业电信行业政府行业政府行业大数据需求分析、加强统筹规划优化大数据形成机制。强化对大数据建设工作的组织协调打破地区和部门数据壁垒实现数据资源联合共建、广泛共享。建立政府和社会联动的大数据形成机制以政府数据公开共享推动公共数据资源的开发利用。  、加强数据收集和信息感知提高智慧城市感知水平。加强政府部门在管理和服务过程中对数据的主动采集建立政府大数据库。鼓励制造业企业和商业机构加强对生产经营活动中的数据采集形成覆盖生产过程和商业各环节各流程的数据库。推进无线识别技术、传感器、无线网络、传感网络等新技术的广泛应用提高数据采集的智能化水平。、推进大数据应用提高经济社会智慧化水平。推进政务信息公开。推行政府网上办事收集分析挖掘社会政务服务需求推进公共服务个性化和政府决策智能化。支持公共服务机构和商业机构开放与社会民生密切相关的公共数据。推进国民经济各行业和企业数据开发发展商业智能。鼓励开展服务大众的大数据应用提升智慧生活品质。政府行业大数据应用智慧城市年月日住房和城乡建设部公布了首批90个国家智慧城市试点名单试点城市的公布标志着我国智慧城市发展进入规模推广的阶段。在目前智慧城市的发展阶段主要的应用还处于对感知设备传递的信息进行简单处理的水平充分认识大数据对于智慧城市建设的关键作用对于避免智慧城市建设中出现“重感知轻智慧”的通病具有重要意义。从智慧城市的体系结构来看由于智慧城市的基础在于物联网技术因此智慧城市体系架构和物联网的体系结构相类似也可分为四层分别为感知层、传输层、平台层、应用层。智慧城市相对于之前数字城市概念最大的区别在于对感知层获取的信息进行了智慧的处理因此也可以认为智慧城市是数字城市的升级版。由城市数字化到城市智慧化关键是要实现对数字信息的智慧处理其核心是大数据处理技术。智慧城市大数据行业应用分析医疗行业金融行业互联网医疗行业能源行业电信行业政府行业医疗行业大数据需求分析医疗行业产生的数据量主要来自于PACS影像、B超、病理分析等业务所产生的非结构化数据。人体不同部位、不同专科影像的数据文件大小不一PACS网络存储和传输要采取不同策略。面对大数据医疗行业遇到前所未有的挑战和机遇。医疗行业大数据应用场景非常多右图仅以临床操作和研发为例展示医疗行业大数据应用场景。对于公共卫生部门可以通过过覆盖全国的患者电子病历数据库快速检测传染病进行全面的疫情监测并通过集成疾病监测和响应程序快速进行响应。Cloudera正在与西奈山医学院合作开发新的生物数据分析方法和系统。Cloudera还与FDA合作侦测多种药物组合的副作用与埃默里大学合作帮助病历学家更准确地分析医疗影像。Cloudera的客户之一Explorys的业务主要是聚合并分析医疗记录而英特尔和NextBio则合作使用Hadoop处理基因数据。Apixio利用Hadoop平台开发了语义分析服务可以对病人的健康提供医生、护士、及其他相关人士的回答。Apixio试图通过对医疗记录进行先进的技术分析与一个简单的基于云计算的搜索引擎来帮助医生迅速了解病人相关病史挽救生命。医疗行业基于Hadoop的大数据应用大数据行业应用分析能源行业金融行业互联网医疗行业能源行业电信行业政府行业能源行业大数据需求分析能源行业数据特征能源勘探开发数据的类型众多不同类型数据包含的信息各具特点综合各种数据所包含的信息才能得出地下真实的地质状况。能源行业面临的大数据问题能源行业企业对大数据产品和解决方案的需求集中体现在:可扩展存储、高带宽、可处理不同格式数据的分析方案。能源行业基于Hadoop的大数据应用Opower使用Hadoop来提升电力服务尽量为用户节省在资源方面的投入。Opower现在管理着TB的信息其中包括来自万用户(横跨个公共事业部)能源数据气象与人口方面的公共及私人数据历史信息地理数据及其他。这些都是通过超过个MySQL数据库和一个Hadoop集群来存储和处理的。采用Hadoop来对来自从海洋深处地震时产生的数据进行排序和整理其背后有可能意味着石油储量。

职业精品

用户评论

0/200
    暂无评论

精彩专题

上传我的资料

热门资料

资料评价:

/45
1下载券 下载 加入VIP, 送下载券

意见
反馈

返回
顶部

Q