spark 实时数据分析,基于spark的电影数据分析

6、Storm与Spark,Hadoop相比是否有优势

Storm相比Spark和hadoop有优势。Storm的优势在于Storm是实时的连续分布式计算框架。它一旦运行，就会一直处理计算中或者等待计算的状态，除非你杀了它。Spark和Hadoop做不到。当然，它们各有各的应用场景。各有各的优势。可以一起用。我来翻一翻别人的资料，说的很清楚。Storm、Spark、Hadoop各有千秋，每个框架都有自己的最佳应用场景。

Storm是最好的流式计算框架。Storm是用Java和Clojure写的。Storm的优势是全内存计算，所以它的定位是分布式实时计算系统。按照Storm作者的说法，Storm对于实时计算的意义类似于Hadoop对于批处理的意义。Storm的适用场景:1)流数据处理Storm可以用来处理连续流动的消息，处理后再将结果写入一个存储器。

7、SparkSQL(十

Hive是大数据领域事实上的SQL标准。它的底层默认是基于MapReduce的，但是由于MapReduce的速度比较慢，近年来新的SQL查询引擎层出不穷，包括SparkSQL、HiveOnTez、HiveOnSpark等等。SparkSQL不同于HiveOnSpark。SparkSQL是一个基于Spark计算引擎的查询引擎，可以针对各种数据源执行查询，包括Hive、JSON、Parquet、JDBC和RDD。

8、 spark与hadoop相比,存在哪些缺陷

Spark已经取代Hadoop成为最活跃的开源大数据项目。然而，在选择大数据框架时，企业不应厚此薄彼。最近，著名大数据专家BernardMarr在一篇文章中分析了Spark和Hadoop的异同。Hadoop和Spark都是大数据框架，并且都提供了一些工具来执行常见的大数据任务。但确切地说，它们执行的任务并不相同，彼此并不排斥。虽然据说Spark在某些情况下比Hadoop快100倍，但它本身并没有分布式存储系统，分布式存储是当今许多大数据项目的基础。它可以在几乎无限的普通电脑硬盘上存储PB级数据集，并提供良好的可扩展性。你只需要随着数据集的增加而增加硬盘。所以Spark需要一个第三方分布式存储。正是因为这个原因，许多大数据项目都在Hadoop上安装Spark，这样Spark的高级分析应用程序就可以使用存储在HDFS的数据。与Hadoop相比，Spark真正的优势在于速度。Spark的大部分操作都在内存中，每次操作后都会安装Hadoop的MapReduce系统。

9、除了 spark还有哪些大数据处理

Hadoop包括MapReduce和HDFS。目前非常流行的Spark，只有被取代才会取代Hadoop中的MapReduce。Spark在任务调度和数据可靠性上确实比MapReduce快很多，而且支持内存缓存数据，下一次查询直接基于内存访问。Spark:是基于内存计算的开源集群计算系统，旨在让数据分析更快。

Spark是用Scala语言实现的，使用Scala作为应用框架。与Hadoop不同，Spark和Scala可以紧密集成，Scala可以像操作本地集合对象一样轻松操作分布式数据集。虽然Spark的创建是为了支持分布式数据集上的迭代作业，但它实际上是Hadoop的补充，可以在Hadoop文件系统中并行运行。

10、如何用 spark分析json数据存入mysql

f(isset($ _ POST[ submit ])