spark,spark这些是大数据分析工具吗?在架构上,Spark包括一个内核部分和四个官方子模块:SparkSQLSparkStreaming机器学习库MLlib图计算库GraphX,从Spark在Berkeley的数据分析软件栈BDAS (Berkeley Data Analytic Stack)中的位置可见。Spark侧重于数据的计算,生产环境中数据的存储往往由Hadoop分布式文件系统HDFS承担。

大 数据需要学习什么框架,什么生态圈

1、大 数据需要学习什么框架,什么生态圈?

你说的应该是big 数据平台中的主流框架。我来列举一下:(1) Hadoop生态系统HDFS:分布式文件系统,解决大数据 Yarn(MapReduce)的存储:分布式计算框架,解决大数据: -2的计算Hive/分析引擎Hive:Hadoop,支持SQLHBase: NoSQL 数据基于HDFS的库ZooKeeper:分布式协调服务,可用于实现HA(高可用性/1但本质还是离线计算MLlib:机器学习框架(3) Flink生态系统FlinkDataSet:Flink批处理(离线计算)APIFlinkDataStream:Flink流处理(实时计算)ApFlinkTable


文章TAG:架构  spark  股票  数据  蚂蚁  股票大数据 架构 spark  
下一篇