首页 大数据终结版 论文 大数据

大数据终结版 论文 大数据

举报
开通vip

大数据终结版 论文 大数据大数据终结版 论文 大数据 项目名称: 大数据技术及其应用 课程名称: 计算机网络B 班级: 测111 姓名: 学号: 教师: 张晓明 信息工程学院计算机系 1 目录 前言.......................................................................................................... 3 1 大数据的概念..................................................

大数据终结版 论文 大数据
大数据终结版 论文 大数据 项目名称: 大数据技术及其应用 课程名称: 计算机网络B 班级: 测111 姓名: 学号: 教师: 张晓明 信息工程学院计算机系 1 目录 前言.......................................................................................................... 3 1 大数据的概念.......................................................................................3 1.1 大数据的四个特性............................................................................................4 1.2 大数据的三个特征............................................................................................4 2 大数据的关键术.................................................................................................5 2.1 可视化分析.........................................................................................................5 2.2 数据挖掘算法.....................................................................................................5 2.3 数据质量和数据管理.........................................................................................5 3 大数据的应用案例...............................................................................5 4大数据价值与隐私保护........................................................................8 5 大数据的发展前景...............................................................................8 6 结论......................................................................................................10 7 参考文献..............................................................................................10 2 大数据技术及应用 引言 进入2012年以来,大数据(Big Data)一词越来越多地被提及与使用,人们用它来描述和定义信息爆炸时代产生的海量数,它已经出现过在《纽约时报》、《华尔街时报》的专栏封面,进入美国白宫网的新闻,现身在国内一些互联网主 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 的讲座沙龙中,甚至被嗅觉灵敏的国君证劵、国泰君安、银河证劵等写进了投资推荐报告,大数据时代来临据。 有人说21世纪是数据信息时代,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。我们在享受便利的同时,也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一只狗,还知道这只狗喜欢什么食物,几点出去遛弯,几点回窝睡觉。我们不得不接受这个现实,每个人在互联网进入到大数据时代,都将是透明性存在。各种数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里?金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。” 1 大数据的概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。从图1 模型不难看出,大数据从本质上来讲包含数量、类型、速度3 个维度的问题,事实上,要想从根本上区别这3 个维度是不可能的。因为,大数据概念的提出是源于技术的发展。 大数据的本质构建如图1 所示。 "大数据"首先是指数据体量(volumes)大,指代大型数据集,一般在10TB规模左右, 3 但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。 1.1 大数据的四个特性 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这也是一个描述性的定义,在对数据描述的基础上加入了处理此类数据的一些特征,用这些特征来描述大数据。当前,较为统一的认识是大数据有四个基本特征: 数据规模大( Volume) ,数据种类多( Variety) ,数据要求处理速度快( Velocity) ,数据价值密度低( Value) ,即所谓的四V 特性。 (一)数据规模大( Volume):企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。 (二) 数据种类多( Variety):一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。 (三)处理速度快( Velocity):高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。根据IMS Research关于数据创建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。 (四)数据价值密度低( Value):大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。传统业务数据随时间演变已拥有 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 的格式,能够被标准的商务智能软件识别。目前,企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。 1.2 大数据的三个特征 除了有四个特性之外,大数据时代的数据还呈现出其他三个特征。 第一个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求. 第二个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。 第三个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。 4 2 大数据的关键技术 从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢, 2.1 可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了. 2.2 数据挖掘算法 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。 2.3 数据质量和数据管理 大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。 大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。 3 大数据的应用案例 麦肯锡在大数据的研究报告中指出,大数据的应用已经渗透到每一个行业和业务职能领域,逐渐成为了重要的生产因素。按照专业领域划分,信息技术、互联网行业、商业、遥感探测已经开始应用大数据技术来进行研究和生产效益;生物信息技术、科研情报所、图书情报领域已经对大数据展开了研究,并进行了规划;其他专业和行业对大数据可能仍处于了解阶段,但大数据的浪潮很快就会波及大部分的行业领域。 大数据应用的关键,也是其必要条件,就在于"IT"与"经营"的融合,当然,这里的经营的内涵可以非常广泛,小至一个零售门店的经营,大至一个城市的经营。以下是关于各行各业,不同的组织机构在大数据方面的应用的案例,在此申明,以下案例均来源于网络,本文仅作引用,并在此基础上作简单的梳理和分类。 5 【医疗方面】:甲型H1N1是2009年出现的一种新的病毒,并短短几周就迅速传播开来。 谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较。——2008年就做出了预判。图2为谷歌公司流感疫情的分析 图(2) 【智慧能源】:维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电 场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。图3为维斯塔推崇的智慧能源电网结构图。 图(3) 【交通方面】:美国、英国和我国的深圳对大数据在交通管理中的应用进行了实践与探索。通过大数据进行公共交通管理将面临着如何开放公共交通数据、如何保护个人隐私、如何进行交通数据的存取等问题,可通过注意保护个人私密信息、提高交通数据存取的多样性、提高交通数据质量等途径去解决。图4为交通信息采样、分析系统。 6 图(4) 【互联网应用】 互联网企业引领大数据应用,并逐步深入其他行业。互联网企业开展大数据应用具有得天独厚的优势。一是互联网企业如谷歌和亚马逊等拥有丰富的数据和强大的技术平台;二是互联网大数据应用不是飞跃型的,而是靠获取长期的累积效益;三是累积效益的获取,主要靠持续不断的快速技术迭代。互联网企业一直奉行敏捷开发、快速迭代的软件开发理念;四是技术和应用一体化组织,是快速迭代的保障。基于以上的优势,掌握大量用户行为数据的谷歌、亚马逊、Twitter、淘宝、新浪等互联网企业已广泛开展定向广告、个性推荐等较成熟的大数据应用。在此基础上,2012 年谷歌发布了其大数据的跨界应用——无人驾驶汽车,依靠庞大的道路信息数据(每秒钟会采集超过750M的数据),无人驾驶汽车可以智能地选择路径和驾驶等。国内互联网企业以阿里巴巴为代表,在2012 年7 月推出数据分享平台“聚石塔”,为天猫、淘宝平台上的电商等提供数据云服务,并扩展到金融领域和物流行业。阿里巴巴基于对用户交易行为的大数据分析,提供面向中小企业的信用贷款,据透露,截至目前已经放贷300 多亿元,坏账率仅为0.3%左右。而2013 年5 月阿里巴巴刚刚成立的“菜鸟”网络物流,也是基于大数据平台分析,联手各大物流企业,选择最高效的送达方式。 【电信应用】 电信运营商和互联网企业的较量也蔓延到了大数据应用。其实电信行业一直有数据分析的应用,只不过主要用于优化自身业务,价值提升度不大。比如,智能管道中基于用户、业务及流量分级的多维管控 机制 综治信访维稳工作机制反恐怖工作机制企业员工晋升机制公司员工晋升机制员工晋升机制图 ,以及精准的客户分析及营销(如离网预警、套餐适配、广告精准投放等),这些应用大多数电信运营商已践行。由于互联网大数据的成功,电信业重新审视自身的数据优势,一是用户的真实信息(用户身份、用户账户等);二是用户行为的全维度信息(所有Web 的访问记录、位置信息等),基于这些优势,一些服务公共社会的应用逐步展开,像智慧城市、利用位置和轨迹信息服务社会、为智慧城市提供海量数据预测服务(例如西班牙电信、中国电信、中国移动等都已开展人口流量模型、城市人口流量等)。而最新的应用,向其他行业提供数据分析结果,似乎为电信运营商大数据应用展现一缕曙光。 7 Verizon 推出的Precision Market Insights 包括位置和Web 浏览信息在内的用户分组信息(并非用户原始信息),被以有偿方式提供给体育场馆、商场等需要做营销的公司,如太阳队就用它来了解观众赛后是否更有意愿光顾比赛的赞助商。面对自身数据不足,不易获得用户互联网或其他行业某一维度的深度行为信息,部分运营商也开始与互联网企业展开合作,引入用户的深度行为信息。Orange 与Facebook 合作推出Party Call,Facebook 账号与电话号码绑定,将Facebook的开放社交图谱引入电信,为其他行业提供API或加工后的用户行为特征信息。 【金融应用】 在传统行业的大数据应用中,金融的大数据应用走在前列。金融行业很早就有将客户交易行为录制后进行分析的传统。我国金融行业也多采购国外的录制设备(比如NICE 和彭博的产品),国内厂商的产品不多。2013 年5 月,全球最大的金融信息服务供应商彭博涉嫌泄露用户的行为信息,引发中国央行、欧洲央行、德国央行的高度关注。彭博数据终端被全球央行、投资银行和基金公司广泛使用,能够监测到客户所热衷查询的信息页面,例如美联储主席伯南克以及前财长盖特纳登录彭博终端的情况,并可由此用大数据技术推测其将采取的行动。可见,大数据的安全愈发重要,我国金融行业对国内厂商的产品需求会增大。 【政府应用】 美国等先进国家政府部门开展大数据应用。美国国家科学基金会、国家卫生研究院、国防部、能源部、国防部高级研究局、地质勘探局等6 个联邦政府的部门和机构投资2 亿美元,开展大数据政府应用。美国国防部开展与网络安全相关的若干大数据项目,进行情报搜集和分析。美国国家卫生研究院着手建立健康与疾病相关的数据集、基因组信息系统、公众健康分析系统以及老龄化电子图书数据库等医疗大数据系统。国际上,早在2009 年,联合国就启动全球脉搏项目,跟踪和监控全球和各地区的社会经济数据,采用大数据技术进行分析处理,以便更加及时地对危机做出反应。我国政府尚未把大数据上升到战略高度,政府部门的大数据应用案例也较少。 4大数据价值与隐私保护 大数据在各行业的价值愈发重要,并出现了数据市场。一种是公众数据市场,比如美国政府倡导的政府开放数据 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 data.gov 的数据门户,用户在该门户上可以免费获得某方面社会的数据;一种是有价交易市场,像data.com 上Salesforce 有价提供用户的分析结果的数据,还有Microsoft Azure 的Marketplace。电信运营商目前探索的向其他行业有价提供数据分析结果也属于此类。 另一方面,大数据的收集和使用中有关用户个人隐私数据也是各界广泛争论的焦点。2013 年1 月,瑞士达沃斯世界经济论坛题为“解锁个人信息的价值:从收集到使用”的报告建议,要将大数据监管重心从收集环节转移到限制数据的使用。但是,刚刚披露的美国 “棱镜门”事件,更是让大数据的收集和使用蒙上了一层阴影,也使得数据安全在国家间的竞争中显得尤为重要。可见,要平衡大数据的使用和保护是一项艰巨的议题。 5 大数据的发展前景 大数据的概念来源于、发展于美国,并向全球扩展,必将给我国未来的科技与经济发展带来深远影响。根据IDC 统计,目前数据量在全球比例为: 美国32%、西欧19%、中国13%,预计到2020 年中国将产生全球21% 的数据,我国是仅次于美国的数据大国,而我国大数据 8 方面的研究尚处在起步阶段,如何开发、利用保护好大数据这一重要的战略资源,是我国当前亟待解决的问题。表1为我国互联网行业与电信行业大数据应用场景的统计信息。 表(1) 而大数据未来的发展趋势则从以下几个方面进行: (1)开放源代码 大数据获得动力,关键在于开放源代码,帮助分解和分析数据。Hadoop 和NoSQL 数据库便是其中的赢家,他们让其他技术商望而却步、处境很被动。毕竟,我们需要清楚怎样创建一个平台,既能解开所有的数据,克服数据相互独立的障碍,又能将数据重新上锁。 (2)市场细分 当今,许多通用的大数据分析平台已投入市场,人们同时期望更多平台的出现,可以运用在特殊领域,如药物创新、客户关系管理、应用性能的监控和使用。若市场逐步成熟,在通用分析平台之上,开发特定的垂直应用将会实现。但现在的技术有限,除非考虑利用潜在的数据库技术作为通用平台 ( 如Hadoop、NoSQL)。人们期望更多特定的垂直应用出现,把目标定为特定领域的数据分析,这些特定领域包括航运业、销售业、网上购物、社交媒体用户的情绪分析等。同时,其他公司正在研发小规模分析引擎的软件套件。比如,社交媒体管理工具,这些工具以数据分析做为基础。 (3)预测分析 建模、机器学习、统计分析和大数据经常被联系起来,用以预测即将发生的事情和行为。有些事情是很容易被预测的,比如坏天气可以影响选民的投票率,但是有些却很难被准确预测。例如,中间选民改变投票决定的决定性因素。但是,当数据累加时,我们基本上有能力可以大规模尝试一个连续的基础。网上零售商重新 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 购物车,来探索何种设计方式能使销售利润最大化。根据病人的饮食、家族史和每天的运动量,医生有能力预测未来疾病的风险。当然,在人类历史的开端,我们就已经有各种预测。但是,在过去,许多预测都是基于直觉,没有依靠完整的数据集,或者单单靠的是常识。当然,即便有大量数据支撑你的预测,也不表明那些预测都是准确的。2007 年和2008 年,许多对冲基金经理和华尔街买卖商分析市场数据,认为房地产泡沫将不会破灭。根据历史的数据,可以预测出房地产泡沫即将破裂,但是许多分析家坚持原有的观点。另一方面,预测分析在许多领域流行起来,例如欺诈发现( 比如在外省使用信用卡时会接到的诈骗电话),保险公司和顾客维系的风险管理。 9 6 结论 综合来看,未来几年大数据在商业智能、公共服务和市场营销三个领域的应用非常值得看好,大多数大数据案例和预算将发生在这三个领域。 “大数据”时代的到来,充满了机遇与挑战,谁能够最快地习惯这种新形式下的数据模式,熟悉和掌握处理这种数据处理方法,谁就会在之后的信息战中占得先机,取得主动权 7 参考文献 ,1,孟小峰,慈祥(大数据管理概念技术与挑战,J,(计算机研究与发展,2013,50(1):146,169( [2] 王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2012,34(10):1741-1752( [3] 朱志军,闫蕾( 转型时代丛书: 大数据?大价值、大机遇、大变革,M,( 北京: 电子工业出版社 2012( 关联数据开放应用协议[J](中国图书馆学报,2012,38( 1):43,48( ,4,张春景,刘炜,夏翠娟,等( [5] 刘炜( 关联数据: 概念、技术及应用展望,J,(大学图书馆学报,2011,29(2):5,12( [6] 夏翠娟,炜赵亮等,大数据的实现——以Drupal为例[J]中国图书馆学报,2012,38( 1) : 49,57( 10
本文档为【大数据终结版 论文 大数据】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_109139
暂无简介~
格式:doc
大小:108KB
软件:Word
页数:14
分类:互联网
上传时间:2017-09-15
浏览量:209