IDC的一份研究报告指出,2025年,全球数据量将达到175ZB,这其中有80%都是非结构化数据。
国内的存储厂商,大部分都是瞄准非结构化数据的市场机遇,以应对互联网、大数据、物联网、机器学习等技术带来的数据潮。传统经典的SAN块存储可以创新的空间越来越少,市场也被几家老牌存储厂商牢牢占据,而以对象存储和文件存储为代表的非结构化数据存储,可创新的空间更大。
一份数据在一个业务场景下可能需要多次利用,就需要多次copy数据。比如,在A业务空间处理完后,再拷贝到B存储空间,用另一种存储协议来访问,不仅需要进行数据迁移,还会额外占用存储空间。
到底什么是多协议互通呢?
多协议互通指的是: 不需要通过格式转化就能让对象存储存进来的数据,通过文件存储方式来访问,或者文件存储存进来的数据可以通过对象存储来访问。存储和读取数据之间不需要经过格式转化,这样就避免了性能和语义的损失。除此之外,多协议无损互通还可以提高数据分析的效率。
在多样化的HPC场景下,日均产生的三维数据可达几百TB甚至PB级,因此对存储性能有着更高的要求。在海量数据的处理过程中,一次数据处理需要经过文件、对象、大数据等多种格式的数据处理,这无疑是对传统数据存储方式发起了巨大的重构挑战。
在整个数据处理闭环中,数据转换格式的时间占全过程的35%以上,如何提升多样性格式数据的处理效率,逐渐成为存储领域新型技术的主流趋势。传统存储厂商仍通过共享硬件资源池,在一套硬件集群上划分出多个独立的逻辑资源池,分别部署对象、块、文件系统的存储池,实现硬件集群多样化格式的共享存储。但在该资源池中,每一个逻辑资源池仅仅只会支持一种访问协议;对于跨协议访问时,仍需要先行拷贝原格式的原始数据,再将其进行数据格式转换,实现不同格式之间的数据相互转换及交互。
在数据处理的过程中,数据拷贝产生的冗余副本不仅占用数据的存储空间,同时在数据格式转化的过程中,将会产生大量的数据丢失。因此,传统的共享硬件资源池,只能提高硬件资源的利用率,无法满足格式差异化要求及数据处理效率,以满足日均PB级的数据存储需求。
如今,一份数据需要经过多个环节处理的场景越来越多,比如自动驾驶、资源勘测等场景。
就“自动驾驶”场景为例,多辆路测车每天产生大约上PB的数据。数据采集的原始数据是NFS格式,需要先转换为HDFS格式,才能利用大数据系统对数据进行预处理,最终将数据转换为NFS格式导入进人工智能训练集群及演练仿真集群,对数据进行深度挖掘,进一步调整自动驾驶策略。自动驾驶的完整数据链的处理环节,需要一份数据通过不同的数据访问协议来访问,对接不同的计算框架,而协议互通能显著提升数据分析的效率。
综上所述,存储的协议互通成为了当今数据应用领域的新生需求,唯有实现数据的协议互通,才可以从根本上简化用户的IT架构,降低数据的处理成本并提升处理效率。
亿万克蛟云分布式存储产品支持块存储、文件存储、对象存储,在一整套存储系统中将文件存储和对象存储融合互通,不需要额外占用存储空间,极大地降低了对存储空间的消耗,减少了不同协议间的数据拷贝和格式转换,同时也降低了对网络带宽的消耗。