行业报告显示,原生数字化数据的规模差不多每年翻一番。这不是简单的进化,而是颠覆,一系列新机遇和新问题摆在存储行业和研究人员面前。为了帮助企业和个人存储、管理和使用海啸式的数据,数据处理领域正在经历一次重要转型。
随着大规模全球分布式应用架构的出现,存储基础设施必须支持事务连续性和不间断运行。应用架构正在促使存储基础设施性能和容量的分离。数据管理和存储管理的清晰分离也已排上日程。从本质上讲,大数据存储基础设施不仅是应用驱动的,而且还是应用优化的。
背景
存储基础架构负责数据的采集、存储、保护和使用交付。如今最重要的是做好平衡:要最大限度地降低存储基础设施投资和运营成本,同时还时刻不能忘记存储行当的至理名言:“永不丢失数据,而且始终要在用户容忍的范围内完成服务”。存储级内存和计算节点内的内存存储已经出现,存储层次正在从磁盘层次扩展到性能最高的层次。与此同时,存储层也从磁盘向另一个方向扩展——务实的折中选择是采用“存储作为服务(storage-as-a-service)”云。存储层次扩大后面临的一大挑战是如何确保应用高效访问数据。
数据访问的分布性是一个常见问题。存储开支中很大一部分是用于数据副本的存储和移 随着数据升级为大数据,副本管理问题更加严重,这也是存储效率创新的重要驱动力。从大数据基础设施产生的最重要的创新将来自应用感知和应用管理需求。
数据处理模型发展迅速,正在超越传统的关系型数据库管理系统(RDBMS)和最近的map-reduce范式。大数据分析近乎实时的需求正在推动数据模型和应用体系结构的创新。基础设施架构必须不断进步,才能适应数据模型和应用算法的变化。这种变化在驱动底层存储基础架构升级的过程中,创造了无数技术问题和研究机会。
大数据平台
软件定义存储架构的出现显著提高了存储管理和操作的灵活性。然而,有效支持大数据范式的存储基础架构演进还远远没有结束。大数据平台必须在应用连续性、数据保护、访问控制和处理性能之间找到最佳平衡点。这种平衡意味着要在性能和容量不同的存储层之间移动大数据块,还请记住,数据移动是双向的。
近实时处理需求正在推动应用开发人员在数据元素的接收和处理方面进行创新。在处理数据元素时必须尽量减少开销,同时,处理节点出现故障时事务还不能丢失。与传统决策支持系统的批量数据处理相比,这些要求远远高很多。
作为文件系统的抽象,Posix(可移植操作系统接口)早已成为存储基础架构上组织数据元素的基础。对于大规模的、可靠的操作,分布式文件系统也已成熟。然而,新应用和相关的数据类型正在促使应用开发者探索通过不同途径来驾驭存储基础架构,或者无视它——也许是期待魔法。就其本身来说,这并不是新需求,关系型数据库架构以前也是直接管理底层存储系统,从而消除标准文件系统的开销。应用驱动优化的另一个例子是在基于网络文件系统(NFS)的共享存储系统上以本地方式直接运行Hadoop。对于大数据应用,我们开始看到应用中间件或应用本身正在直接驱动这种优化。键值存储、面向列的数据库、多媒体内容文件、文档数据库以及其他新型大规模数据建模与新的编程范式相结合,正在形成新的投资机会。
再加上众所周知的 CAP原理 的应用,基础设施层次的高可用性架构可以确保事务连续性,例如,即使系统组件出错,用户事务也不丢失。在大数据尺度,基础设施应该能够应对维修和维护所需的硬件层经常性改变。即使基础设施发生故障也要保证交付持续性和近实时的性能,是这类存储系统的一个重要特点。存储系统级别的数据安全和加密方法现在已经做得很好了,在大数据尺度上,挑战已经变成了访问速度和访问控制的有效权衡。
虽然大数据意味着企业业务开发模式的重大变迁,期望正在运行的业务一夜之间切换也不现实。因此,混合架构还是当今首选。未来需要的是数据串联服务(data-fabric service),即数据块传输不仅发生在存储系统的各层之间,还发生在存储集群之间。
主题文章
谈到面向新服务模型的解决方案,一个很好的起点是Eli Collins的 《公共云中的大数据》,它探讨了在应用大背景下基础实施的消费模式是如何演化的。然后,Ganesh Chandra Deka在 《云数据库系统综述》中介绍了面向大数据的各种数据建模工具和范式。这两篇文章都涵盖了应用演变的大背景。
在 《存储挑战:那些大数据都将去哪儿?》中,Neal Leavitt 综述了存储技术和产品的最新进展,预计五年后存储选项的组合方式将与今天大不相同。当然,这些变化不会没有挑战,Yih-Farn Robin Chen的 《云存储成长的烦恼》 讨论了更大容量的大规模存储系统设计中的基本工程问题。
Xiaoxue Zhang和Feng Xu的 《大数据存储研究综述》 研究了大数据的特性和相关挑战。为了应对这些挑战,Fedi Gebara, H. Peter Hofstee和Kevin Nowka在 《第二代大数据系统》 中提出,要支持针对不同数据类型的多种分析方法以及近实时的响应能力,必需合适的架构。
胡晗及其同事的 《走向大数据分析可扩展系统:技术教程》 涵盖了大数据范式和基础设施的方方面面,亮点在于文献综述和丰富的参考资料。
行业透视视频
Industry Perspective Video
Brian Marshall on changes in the landscape of storage infrastructure.
Industry Perspective Video
Ion Stoica on infrastructure utilization.
展望
Ion Stoica 是伯克利加州大学电气工程与计算机科学系教授,他从2013年起任Databricks的CEO,他合伙创办的这家公司致力于大数据处理技术的商业化。在这个短视频中,他谈到用户对快速响应的需求,并讨论了更好地利用基础设施的技术。
在第二段产业视角视频中,Hortonworks 负责企业发展的副总裁 Brain Marshell 讨论了存储基础设施的变化前景。Marshell在领导技术部门开展基础研究方面有15年的经验,既有买方角度也有卖方角度。
结论
趋势显示,应用层将驱动存储基础架构的下一轮创新。存储基础设施将以服务形式提供,背后是先进自动化技术支撑的自助服务模式。业务敏捷性需求推动应用开发和运营工作人员(DevOps模型)引领数据中心的创新,存储基础设施与计算和网络的协同将越来越无缝。
试图解决大数据基础架构挑战性问题的人们一定要“仰望”应用层。例如,存储网络行业协会(SNIA)组织了一个专注于分析和大数据的 专门委员会,存储基础设施如何演化才能应对挑战?SNIA提供了丰富的信息。
引用
S. Nagarajan, “Is the Application Layer Fueling Innovation in Storage Infrastructure?,” Computing Now, vol. 8, no. 5, May 2015, IEEE Computer Society [online]; http://www.computer.org/publications/tech-news/computing-now/is-the-application-layer-fueling-innovation-in-storage-infrastructure.
客座编辑
Sundara Nagarajan是总部设在印度班加罗尔的 NetApp公司 的技术总监。他还是“今日计算”和印度IEEE计算机学会之间的联络人。可在LinkedIn www.linkedin.com/in/nagarajan 上访问他的个人资料,或通过s.nagarajan at computer dot org联系他。