HBASE

HBASE

7
推荐
392
浏览

实现Hive查询操作HBase中的数据

今天主要给大家讲解一下,如何使用Hive来查询及操作HBase里面的数据,也就是实现二者的数据互通互导,相互操作。首先不了解HBase的亲可以看一下我之前写过的一片博文:《白话解说:SQL与NoSQL》https://ask.hello...

马修 发表了文章 • 2018-08-27 19:54

0
投票
0
回答
219
浏览

HBASE 启动报错 Stop it first.

思恩 发起了问题 • 2018-08-06 22:32
推荐
浏览


ggud76 发表了文章 •

推荐
浏览


zeh9vi 发表了文章 •

推荐
浏览


acuv5r 发表了文章 •

推荐
浏览


ujlfo4 发表了文章 •

推荐
浏览


ckmtbv 发表了文章 •

推荐
浏览


k3ho8p 发表了文章 •

推荐
浏览


ujlfo4 发表了文章 •

推荐
浏览


na367v 发表了文章 •

推荐
浏览


qzq1x4 发表了文章 •

推荐
浏览


uudvxe 发表了文章 •

推荐
浏览


pbjq5s 发表了文章 •

推荐
浏览


ecsqfj 发表了文章 •

推荐
浏览


z7i0vn 发表了文章 •

条新动态, 点击查看
请问一下hbase 的output是怎么配置的呀,我这边怎么配置都显示连接失败无法连接
请问一下hbase 的output是怎么配置的呀,我这边怎么配置都显示连接失败无法连接
Bob

Bob 回答了问题 • 2015-11-24 13:35 • 1 个回复 不感兴趣

求教对Hbase的scan方法的理解?

赞同来自:

scan方法是有好几种场景的:
1.如果只是根据rowkey进行查询,速度是最高的。当然rowkey查询也支持几个模式:单个或多个rowkey固定查找,rowkey的startkey endkey查找,rowkey前缀查找等。
2.如果是只根据列进行查找,没有... 显示全部 »
scan方法是有好几种场景的:
1.如果只是根据rowkey进行查询,速度是最高的。当然rowkey查询也支持几个模式:单个或多个rowkey固定查找,rowkey的startkey endkey查找,rowkey前缀查找等。
2.如果是只根据列进行查找,没有利用rowkey。那么效率非常低,执行全表扫描。包括列名称、列值等过滤
 
在实际的场景中,表的设计都是根据查询场景来确定的。一般是一个表服务于一个或类似的查询。这样就可以充分利用hbase 的rowkey扫描高效,来达到目的。
 
hbase集群本身没有所谓的索引。华为在这个方面贡献了一个二级索引的技术实现: https://github.com/Huawei-Hadoop/hindex
在实际生产环节中,也可以采用solrcloud或elasticsearch来实现hbase的索引:数据在写入hbase的同时,存储一份到索引中。用户在按范围过滤等条件是先查找索引,然后再根据rowkey来查hbase。
看一下官方文档: https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration
Hive 1.x will remain compatible with HBase 0.98.x and ... 显示全部 »
看一下官方文档: https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration
Hive 1.x will remain compatible with HBase 0.98.x and lower versions. Hive 2.x will be compatible with HBase 1.x and higher
As of Hive 0.9.0 the HBase integration requires at least HBase 0.92, earlier versions of Hive were working with HBase 0.89/0.90
zhanmsl

zhanmsl 回答了问题 • 2016-01-22 15:19 • 2 个回复 不感兴趣

hbase重启后找不到数据?

赞同来自:

这里会涉及到几个问题:
1、 hbase的meta里是否有表的基本信息,可以通过scan 'hbase:meta'查看;
2、 hbase表在hdfs中的目录文件是否存在,一般目录在 hdfs dfs -ls /hbase/data/default/xxx表名... 显示全部 »
这里会涉及到几个问题:
1、 hbase的meta里是否有表的基本信息,可以通过scan 'hbase:meta'查看;
2、 hbase表在hdfs中的目录文件是否存在,一般目录在 hdfs dfs -ls /hbase/data/default/xxx表名;
3、 Zookeeper的hbase目录节点下是否有该表的信息;
4、 所使用的Regionserver是否正常启动;
5、 HMaster是否正常。
一般是不存在这种情况的
HMaster监控RegionServer的信息会保存在Zookeeper上的,可以尝试清空Zookeeper相关hbase目录的信息后,冲刺HBase相关服务
 
其实最有效的方法还是看日志,因为只有描述,所以只能进行简单的尝试。
一般是不存在这种情况的
HMaster监控RegionServer的信息会保存在Zookeeper上的,可以尝试清空Zookeeper相关hbase目录的信息后,冲刺HBase相关服务
 
其实最有效的方法还是看日志,因为只有描述,所以只能进行简单的尝试。
Bob

Bob 回答了问题 • 2016-01-28 09:00 • 1 个回复 不感兴趣

Hbase rowkey的模糊匹配有那几种filter?

赞同来自:

1.前缀过滤器:PrefixFilter
2.行过滤器:RowFilter
3.随机行过滤器:RandomRowFilter
4.第一个行:FirstKeyOnlyFilter
5.键过滤器:KeyOnlyFilter
6.自定义过滤器:你自己定义的类,继承F... 显示全部 »
1.前缀过滤器:PrefixFilter
2.行过滤器:RowFilter
3.随机行过滤器:RandomRowFilter
4.第一个行:FirstKeyOnlyFilter
5.键过滤器:KeyOnlyFilter
6.自定义过滤器:你自己定义的类,继承FilterBase即可
hive和hbase数据存储的底层都是HDFS
你可以参照这篇文章: https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration ,里面介绍的很清楚
因为你现在已经有了3000W数据的表... 显示全部 »
hive和hbase数据存储的底层都是HDFS
你可以参照这篇文章: https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration ,里面介绍的很清楚
因为你现在已经有了3000W数据的表,那么第一步:
创建一个新的hive表:
CREATE TABLE hbase_table_1(key int, value string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val") TBLPROPERTIES ("hbase.table.name" = "xyz");
因为hbase的表的列是可动态扩展的,这里只需要指定列簇即可
并且这里是通过HBase内部机制支持:org.apache.hadoop.hive.hbase.HBaseStorageHandler
第二步:
把已有的表数据导入到新创建的hive表
INSERT OVERWRITE TABLE hbase_table_1 SELECT * FROM old_hive_table;
 
完毕。
 

 
二者差异不大。因为hbase的数据也是存放在hdfs上。hive的核心是做了一个sql解析引擎。让擅长sql编程的人员能操作hdfs文件。
一般情况下是使用hadoop 命令和MapReduce来直接操作hdfs。
但是对数据分析、ETL人员来讲,使用sql操... 显示全部 »
二者差异不大。因为hbase的数据也是存放在hdfs上。hive的核心是做了一个sql解析引擎。让擅长sql编程的人员能操作hdfs文件。
一般情况下是使用hadoop 命令和MapReduce来直接操作hdfs。
但是对数据分析、ETL人员来讲,使用sql操作表的编程习惯更有利于提升工作效率。
 
hive的hql执行比原生MapReduce慢一些,但是现在可以使用hive on spark、或者是hive on tez 来解决这个问题。
有比对数据吗?虽然没有实践过impala和Hbase集成,实验过Hive/Impala/Spark SQL,其中Impala的速度比Hive快很多,但是稍慢于Spark SQL。从理论上来讲,应该是更快才对。除非数据量很小,当数据量很小的情况下,这些用于大数据... 显示全部 »
有比对数据吗?虽然没有实践过impala和Hbase集成,实验过Hive/Impala/Spark SQL,其中Impala的速度比Hive快很多,但是稍慢于Spark SQL。从理论上来讲,应该是更快才对。除非数据量很小,当数据量很小的情况下,这些用于大数据处理和查询的组件反而无法体现其巨大的性能。
Bob

Bob 回答了问题 • 2016-06-24 17:10 • 2 个回复 不感兴趣

hbase数据库有没有一些靠谱的可视化界面工具?

赞同来自:

可以看看外面有没有基于 phoenix 写的可视化工具
hue 也可以连接到hbase
可以看看外面有没有基于 phoenix 写的可视化工具
hue 也可以连接到hbase
Bob

Bob 回答了问题 • 2016-11-17 13:31 • 2 个回复 不感兴趣

hive导入hbase有什么好的方法或工具吗

赞同来自:

hive可以直接映射到hbase的一个表。
然后你可以使用HQL对这个表进行修改等操作
hive可以直接映射到hbase的一个表。
然后你可以使用HQL对这个表进行修改等操作
1.对网页源代码进行抽样查看,确认作者,时间,评论内容,点击数对应的位置,并编写好对应的正则表达式
2.编写程序对hbase的数据进行遍历
这个过程可以使用scan API,也可以使用mapreduce
拿到每行明细数据后使用正则进行解析,获取相应字段的值
3... 显示全部 »
1.对网页源代码进行抽样查看,确认作者,时间,评论内容,点击数对应的位置,并编写好对应的正则表达式
2.编写程序对hbase的数据进行遍历
这个过程可以使用scan API,也可以使用mapreduce
拿到每行明细数据后使用正则进行解析,获取相应字段的值
3.将结果写入到一个新的hbase表或hdfs目录中
Bob

Bob 回答了问题 • 2017-02-07 19:44 • 1 个回复 不感兴趣

Hbase hbase.snapshot.enabled 如何做快照?

赞同来自:

为表建立快照的标准语法:
snapshot 'myTable','myTable_snapshot'
 
如果想每天都创建一个快照,则建议使用shell脚本:
suffix=$(date)
echo "snapshot 'myTable', 'myT... 显示全部 »
为表建立快照的标准语法:
snapshot 'myTable','myTable_snapshot'
 
如果想每天都创建一个快照,则建议使用shell脚本:
suffix=$(date)
echo "snapshot 'myTable', 'myTable-${suffix}'" | hbase shell
 
增加wal的缓存大小
增大hbase-site.xml中写入的内存占比
增加wal的缓存大小
增大hbase-site.xml中写入的内存占比
9
推荐
2432
浏览

Hive与HBase的集成实践

注:若需转载,请注明出处!Hive与HBase集成实践大数据平台搭建 hive-2.0.0 hbase 1.1.3环境说明CentOS 6.7Hadoop 2.7.2Hive 2.0.0HBase 1.1.31. 具体步骤1. 拷贝jar包首先删除$HIVE_HOME/lib下HBase和...

MarsJ 发表了文章 • 2016-05-30 20:13

0
投票
1
已解决
1214
浏览
0
投票
0
回答
219
浏览

HBASE 启动报错 Stop it first.

思恩 发起了问题 • 2018-08-06 22:32
0
投票
2
回答
449
浏览

hadoop subdir目录存储大

张丽娜19880929 回复了问题 • 2018-07-20 18:20
0
投票
2
回答
449
浏览
0
投票
0
回答
463
浏览

hive怎样映射hbase的计数器列么?

haobiql 发起了问题 • 2017-06-06 10:18
0
投票
1
已解决
386
浏览
0
投票
2
回答
484
浏览

每天两千亿条数据是否适合用Hbase?

MarsJ 回复了问题 • 2017-02-08 09:53
0
投票
1
已解决
434
浏览

Hbase hbase.snapshot.enabled 如何做快照?

Bob 回复了问题 • 2017-02-07 19:44
0
投票
2
回答
549
浏览
0
投票
0
回答
813
浏览
7
推荐
392
浏览

实现Hive查询操作HBase中的数据

今天主要给大家讲解一下,如何使用Hive来查询及操作HBase里面的数据,也就是实现二者的数据互通互导,相互操作。首先不了解HBase的亲可以看一下我之前写过的一片博文:《白话解说:SQL与NoSQL》https://ask.hello...

马修 发表了文章 • 2018-08-27 19:54

推荐
浏览


ggud76 发表了文章 •

推荐
浏览


zeh9vi 发表了文章 •

推荐
浏览


acuv5r 发表了文章 •

推荐
浏览


ujlfo4 发表了文章 •

推荐
浏览


ckmtbv 发表了文章 •

推荐
浏览


k3ho8p 发表了文章 •

推荐
浏览


ujlfo4 发表了文章 •

推荐
浏览


na367v 发表了文章 •

推荐
浏览


qzq1x4 发表了文章 •

推荐
浏览


uudvxe 发表了文章 •

推荐
浏览


pbjq5s 发表了文章 •

推荐
浏览


ecsqfj 发表了文章 •

推荐
浏览


z7i0vn 发表了文章 •

推荐
浏览


k3ho8p 发表了文章 •

  HBase 全称是 Hadoop Database,是开源的高可靠性、高性能、可伸缩的分布式数据库系统,利用 HBase 技术建立大规模结构化存储集群