首页 大数据即席查询技术

大数据即席查询技术

举报
开通vip

大数据即席查询技术百度大数据即席查询服务百度开放云即席查询服务(BigSQL)•BigSQL定位/特点•BigSQL架构•BigSQL关键技术•BigSQL在Baidu内部的应用•下一步计划即席查询服务(BigSQL)•BigSQL定位/特点•BigSQL架构•BigSQL关键技术•BigSQL在Baidu内部的应用•下一步计划Ø大数据即席查询(Ad-HocQuery)平台ØPAAS:开箱即用,用户无需关心机器/集群的运维/细节Ø高性能/规模:裸机/优化/最大PB量级以上Ø低成本:多租户共享集群/按使用付费BigSQL定位Ø数据格式...

大数据即席查询技术
百度大数据即席查询服务百度开放云即席查询服务(BigSQL)•BigSQL定位/特点•BigSQL架构•BigSQL关键技术•BigSQL在Baidu内部的应用•下一步 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 即席查询服务(BigSQL)•BigSQL定位/特点•BigSQL架构•BigSQL关键技术•BigSQL在Baidu内部的应用•下一步计划Ø大数据即席查询(Ad-HocQuery)平台ØPAAS:开箱即用,用户无需关心机器/集群的运维/细节Ø高性能/规模:裸机/优化/最大PB量级以上Ø低成本:多租户共享集群/按使用付费BigSQL定位Ø数据格式:半结构化(CSV/JSON/Parquet/Protobuf等)Ø使用接口:易用/多样化(RestAPI/Console/CLI/JDBC)Ø语法集:兼容开源SparkSQL/HQLØ按使用付费:按(Query复杂度+扫描数据量)计费Ø多用户协同:灵活的权限管理BigSQL特点•面向“人”的查询ü交互式(Interactive):Ø查询具有较高时效性ü即席(Ad-Hoc):Ø查询模式相对不固定Ø数据没有(时间/成本)做过多预处理Ad-HocQueryAd-HocQueryOLAP数据密度弱(半)结构化高度结构化加工过程粗(浅)加工深度加工查询模式相对随机相对固定即席查询vs多维分析MPP/ImpalaSQLonHadoop/SparkSQL扩展性1000台以内/PB以下千台以上/PB以上查询延迟毫秒~秒秒~分钟架构复杂性中等复杂容错无有调度策略Gang/Transaction分批启停开销小/常驻进程大/现启动与存储结合程度紧密松散MPP/Shared-NothingBigSQLServiceWebServerTools/SDKBOSBigSQL示意图UserQueryUserQueryStreamingBatch即席查询服务(BigSQL)•BigSQL定位/特点•BigSQL架构•BigSQL关键技术•BigSQL在Baidu内部的应用•下一步计划RESTAPI接入层(HttpServer)SessionManagerSparkContextSessionWorkerQueryQuerySchedulerCompute&StorageClusterSparkContextSessionWorkerQueryQuerySparkContextSessionWorkerQueryQuerySDKCLIToolsMetaStoreIAM账单监控StateStoreConsoleBigSQL整体架构Ø易用性:各种形式的APIØ可用性:关键节点容错Ø安全:租户认证和鉴权、Quota限制Ø账单Ø监控BigSQL整体架构:接入层计算引擎(Spark)SessionWorkerSessionWorkerSessionWorkerSessionWorkerAPPExecutorExecutorAPPExecutorExecutorExecutor分布式缓存(CacheManager)存储引擎(DFS/ColumnStorage)APPExecutorAPPExecutorExecutorBigSQL整体架构:引擎层接入层即席查询服务(BigSQL)•BigSQL定位/特点•BigSQL架构•BigSQL关键技术•BigSQL在Baidu内部的应用•下一步计划高性能ShuffleBigSQL关键技术(一)高性能ShuffleBigSQL关键技术(一)BigSQL关键技术(一)数据缓存层BigSQL关键技术(二)UserUser接入层计算引擎(Spark)CacheManagerCache存储引擎(HDFS+Parquet)数据缓存策略l按需缓存ØQuery运行时触发Cachemiss,异步load到缓存l数据预取Ø周期性Load相关Table/Partition到缓存Ø根据过去Query信息统计热点数据,提前Load到缓存典型 案例 全员育人导师制案例信息技术应用案例心得信息技术教学案例综合实践活动案例我余额宝案例 :跨地域查询加速(提升至少一个数量级)BigSQL关键技术(二)优化执行l智能参数优化Ø利用Combine类InputFormat,减少MapTask数Ø根据上游输出,自动优化ReducePartition数目l调度优化Ø评估数据量,自动复用Application或者启用新的Applicationl近似查询Ø长尾任务自动忽略,保证时效性BigSQL关键技术(三)资源隔离/安全l基于Cgroup/Namespace的Container隔离ØCPU/Memory/FSØContainer本身的加固Ø网络的互通与隔离lJVM沙箱层的多种安全策略l计算/存储框架层的安全认证和加密传输BigSQL关键技术(四)即席查询服务(BigSQL)•BigSQL定位/特点•BigSQL架构•BigSQL关键技术•BigSQL在Baidu内部的应用•下一步计划在Baidu内部的应用凤巢广告数据分析l漏斗分析Ø分析广告被过滤的原因,各个维度特征等l系统优化和问题定位Ø分析系统业务日志,发现可优化的指标和潜在问题日均扫描数据量:xxPB即席查询服务(BigSQL)•BigSQL定位/特点•BigSQL架构•BigSQL关键技术•BigSQL在Baidu内部的应用•下一步计划l持续投入技术研发Ø更智能的数据缓存层:细粒度/物化视图选取Ø实时更新Ø向量执行:提高CPUcache命中率ØCBO:Cost-basedOptimizerBigSQL后续规划l构建通用大数据处理平台Ø日志收集服务Ø数据变形/ETL服务Ø报 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf /多维分析Ø即席查询服务Ø批处理服务Ø预测服务BigSQL后续规划DWTransformHDFSCollectOLAPStorageTransform特征库Transform多维分析ETL报表LogService即席查询批处理服务预测服务通用大数据处理平台演讲完毕,谢谢观看!
本文档为【大数据即席查询技术】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
言言无悔一生
暂无简介~
格式:ppt
大小:3MB
软件:PowerPoint
页数:29
分类:
上传时间:2022-01-21
浏览量:1