hive主要针对OLAP应用,其底层是hdfs分布式文件系统,专注于一个统一的查询分析层,支持OLAP应用中各种相关、分组、聚合的SQL语句。hive一般只用于查询、分析和统计,不能是常用的CUD操作。要知道HIVE需要从现有的数据库或日志中同步,最后导入到hdfs文件系统中。目前要实现增量实时同步还是相当困难的。

5、为什么使用Hive?Hive提供了什么?Hive支持哪些用户

为什么要用Hive?为什么要用Hive?那么,在哪里使用Hive呢?将60亿行(经度,维度,时间,数据值,高度)数据集加载到MySQL后,系统崩溃,出现数据丢失。这可能部分是因为我们最初的策略是将所有数据存储在一个表中。后来,我们调整了策略,按照数据集和参数来划分表,这有所帮助,但也引入了额外的消耗,这不是我们想要接受的。

我们安装了Hive0.5 20,使用了CDHv3和ApacheHadoop(0202 320)。CDHv3还包含许多其他相关工具,包括Sqoop和Hue,它们都在我们的架构中进行了标识,如图233底部所示。我们使用ApacheSqoop将数据转储到Hive中,然后编写一个ApacheOODT包装器,使Hive根据空间/时间约束查询数据,然后将结果提供给RCMET和其他用户(如图232中间部分所示)。

6、 hive怎么实现update操作

数据更新是比较常见的操作,然后数据仓库的概念一般要求数据是完整稳定的。HIVE作为分布式环境下HDFS支持的数据仓库,也要求数据不可变。然而,在现实中的许多任务中,经常需要更新数据。经过调查,Hive从0.11版本开始就提供了更新操作。于是我就想着试一试,看看蜂巢更新的操作和性能。

7、有几点关于hadoop的 hive数据仓库和hbase几点疑惑,希望有高手可以帮忙...

首先我感觉你有点乱。你先了解数据仓库的功能——存储历史数据——然后分析数据,只提供查询——不提供修改1。Hive的目标是做数据仓库,所以它提供了SQL和文件表映射,而且因为Hive是基于HDFS的,所以它不提供更新,因为HDFS本身不支持。2.HBase是NoSQL数据库-所以不要把它和传统混为一谈-NoSQL提供了另一种满足高性能需求的思路,而这些都是传统数据库-的缺点,与传统数据库-的概念不同。

8、 hive的设计特征

Hive是一个底层封装Hadoop的数据仓库处理工具。它使用类似SQL的HiveQL语言实现数据查询,所有的Hive数据都存储在Hadoop兼容的文件系统中(例如HDFS的AmazonS3)。Hive在加载数据的过程中不会修改数据,只会将数据移动到HDFS Hive设置的目录中。因此,Hive不支持重写和添加数据,所有数据都是在加载时确定的。

●支持索引,加快数据查询。●不同的存储类型,如纯文本文件和HBase中的文件,●将元数据保存在关系数据库中,大大减少了查询过程中语义检查的时间。●可以直接使用Hadoop文件系统存储的数据,●内置大量用户函数UDF来操作时间、字符串等数据挖掘工具,支持用户扩展UDF函数来完成内置函数无法实现的操作。

 2/2   首页 上一页 1 2 下一页

文章TAG:数据库  hive  HIVE  创新  hive创新数据库  
下一篇