大数据时代下云存储技术的探索和产品设计
在线数据处理在存储的实践
金山云 杨钢 2<013-6-4
2<013-6-13
内容
财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容
简介
?? 不包含有关数据挖掘、商业价值的内容
?? 根据金山云自身
案例
全员育人导师制案例信息技术应用案例心得信息技术教学案例综合实践活动案例我余额宝案例
改编
?? 推荐发展阶段公司的数据处理技术和产品
2<013-6-13
需求描述
?? 秒传功能
?? 文件按照 Hash 排重(Size + MD5 + SHA1 )
?? 大文件以 4MB 为单位分块
?? 清理功能
?? 如何准确寻找不再被引用的数据块
?? 引用计数的问题
?? 无法实现强一致性
2<013-6-13
实时映射表
2<013-6-13
关键参数
?? 在线服务
?? 数据集必须实时表现文件与数据块的关联关系(实际 上由于同步模型可容许小于 2s 的数据延迟)
?? 数据集规模
?? 文件条目数
?? 用户数
?? 数据集更新QPS
?? 系统运行成本
2<013-6-13
外围结构简图
2<013-6-13
消息队列
?? 文件 API 将变更原语推送到消息接收器 ?? 可采用多种 RPC 框架,例如 Thrift ?? 不过我们采用了 UDP,因为后期还有校检器,不希
望此服务对 API 构成影响
?? 消息接收器将消息保存为按时序排列的消息列表
?? 更新器不断获取新的消息段,更新对应的表
2<013-6-13
数据集演变
?? 单机
?? 设计容量:用户数 1<0M,文件条目数 1<0G ?? 普通服务器
?? 大服务器
?? 设计容量:用户数 1<0<0M,文件条目数 1<0<0G ?? 大服务器 + 超算存储
?? 分布式
?? 设计容量:用户数 1G,文件条目数 1T ?? 分布式数据仓库 + 超算存储
2<013-6-13
阶段一:1<0G 记录
?? 数据集指标
?? 用户数 1<0M
?? 文件条目 1<0G
?? QPS峰值 1<0K
2<013-6-13
正向引用表
?? 数据规模
?? 假设单条长度 32 字节,1<0G 条数据容量 32<0GB ?? 文件数据按用户分划,假设单用户数据对齐到 4KB,1<0M 用户
最多有冗余数据 4<0GB
?? 两项之和为 36<0GB
?? 部署模型
?? 单服务器整合更新器
?? 活跃用户的数据缓存在内存中,采用 LRU 结合固定刷新周期
?? 物理服务器
?? 普通服务器,内存为数据集 1/2<0,24GB 即可
?? 设备价格 2 万元(3年),托管价格约 4<0<0元,合计 95<0元/月
2<013-6-13
反向引用表
?? 数据规模
?? STOR Map:假设单个记录为 32 字节,1<0G 条数据容量为 32<0GB
?? FID List:假设 1 个 STOR 平均对应 2 个 FID,即 16 字节, 则数据容量为 16<0GB
?? 根据经验值加上 2<0% 冗余和附加消耗,总数据容量 6<0<0GB
?? 部署模型
?? 采用两级结构:用两块 32<0GB SSD 硬盘做二级存储;使用大
约 4<0GB 内存做一级存储
?? 物理服务器
?? 略贵于前者,每月摊销大约在 12<0<0 元以下
2<013-6-13
阶段二:1<0<0G 记录
?? 假定所有指标等比上调
?? 用户数 1<0<0M,记录数 1<0<0G
?? 正向表
3.5TB,建议 2<0<0GB 内存做为缓存 ?? 数据空间
?? 对应服务器采购价约 5 万元,托管价格约 9<0<0 元,
合计每月 25<0<0 元
?? 反向表
?? 数据集 6TB,需要存储/计算混合型服务器,搭载多
块 SSD 硬盘。建议分配 4<0<0GB 内存做一级缓存 ?? 对应服务器价格约 1<0 万元,托管价格 2<0<0<0 元,合
计每月 45<0<0 元
2<013-6-13
阶段三:1T 记录
?? 集群化设计
?? 正向表按用户划分
?? 反向表按 Hash 码划分 ?? 多个更新器
2<013-6-13
容错处理
?? 设备容错
?? 使用 RAID 1 应对常见的磁盘故障
?? 服务容错
?? 可以暂时断开同步(更新器),修复服务后,继续运
行同步
2<013-6-13
校检器
?? 检查正反向映射表一致性
?? 根据内存大小,划分 FID(即 User)和 STOR 的空
间,根据正向表建立内存数据,然后再用于检查反向 表
?? 检查时应暂停同步,且保证各个数据节点同步在同一 个检查点
?? 检查正向表与 File 数据库的一致性
?? 保持同步状态,以 User 为单位,检查数据是否一致 ?? 如果该用户在检查时刻前 5s 以内有数据更新,重新
排入任务队列
?? 如果发现不一致,生成差异变更信息,投入消息队列
2<013-6-13
方案
气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载
比较
?? VS 数据库
?? 效率差异
?? 成本差异
?? 稳定性与一致性指标差异
?? VS Hadoop
?? 在线数据处理需求
2<013-6-13
总结
?? Map/Reduce 只是数据处理的范式之一 ?? 根据不同需求选择不同的数据处理方案
?? 可以考虑具有性价比优势的高配服务器 ?? 例如:4路CPU,1TB内存,价格仅十几万 ?? 简化了应用开发的难度,和集群的规模
?? 大数据处理时通常需要高吞吐存储集群配合
2<013-6-13
金山云广告时间
?? 专为企业数据挖掘提供的存储解决方案(私有云
方案)
?? 一个卷可以同时挂接到多台计算设备
?? 单卷可支持高达数百 PB
?? 15台普通存储服务器集群吞吐量可达 1<0<0Gbps (使用万兆网络)
?? 联系邮箱 yanggang@kingsoft4>>