大数据分析平台必须能够容纳大量数据。但是Da数据Analysis平台可能集成了可以提高非结构化数据 library和性能的可伸缩性的函数,元数据 性能大赛:HDFSvsOSSvsJuiceFS存储是Da 数据的基石,存储系统的元数据是其核心大脑。
Spark是处理海量数据的快速通用引擎。Spark作为一种大型数据处理技术,经常被拿来和Hadoop做比较。Hadoop已经成为大型数据技术事实上的标准,HadoopMapReduce也非常适合大型数据集合的批量处理,但是它仍然存在一些缺陷。具体表现为:1。HadoopMapRedue的表达能力有限。所有的计算都需要转化为Map和Reduce两个操作,这两个操作并不适用于所有场景,很难描述复杂的数据过程。
HadoopMapReduce每一步之间都需要数据序列化到磁盘,所以I/O开销很大,导致交互分析和迭代算法开销很大,几乎所有的优化和机器学习都是迭代的。所以HadoopMapReduce不适合交互分析和机器学习。3.计算延迟很高。如果要完成更复杂的工作,必须串联一系列MapReduce作业,然后按顺序执行。
存储是数据的基石,存储系统的元素数据是它的核心大脑,也就是数据 性能对于整个大学-。本文选取Da 数据 平台中的三种典型存储方案,对cell 数据 性能进行测试,进行一次大赛。其中,HDFS是一个被广泛使用的大数据存储方案,有十几年的沉淀和积累,是最合适的参考基准。以AmazonS3和AliyunOSS为代表的对象存储也是数据 平台在云上的候选方案,但只具备HDFS的部分功能和语义,与性能也差不了多少,所以在实践中应用并不广泛。
JuiceFS是Big 数据 circle的新秀,专为云Big 数据打造,是符合云原生特性的Big 数据的存储方案。JuiceFS使用云上的对象存储来存储客户数据的内容,通过juice fs meta数据service和JavaSDK实现了HDFS的完全兼容,不需要对数据 analysis组件做任何修改就可以获得和HDFS一样的体验。在Hadoop中,有一个组件叫做NNBench,专门用于压力测试文件系统element数据性能。本文用它来做压力测试。
文章TAG:性能 平台 数据 大数据平台 性能