Hive
跑数出现连不上hive数据库的问题
HDP中Metrics Collector服务启动后立即终止
Hive3 误操作删除数据后的恢复方案
老头子 发表了文章 • 2021-03-04 17:19
Hive UDF 无法删除的BUG
老头子 发表了文章 • 2021-01-19 13:44
有条hiveSql走Tez引擎, 针对mr的配置应该不会生效了吧?
Python数据插入Hive中文编码问题
走马兰台 发表了文章 • 2019-11-10 18:35
通过ODI接口把数据从Oracle数据库抽到HIVE数据库怎么解决
hiveserver2不能启动
hive-shell批量操作分区文件
brucelu 发表了文章 • 2018-12-25 20:34
利用钉钉机器人定时发送数据提醒&消息
brucelu 发表了文章 • 2018-12-17 13:35
windows和linux连接hive问题
走马兰台 发表了文章 • 2018-10-31 14:58
hive每一次insert都会产生一个新的文件,请问可以不生成新的文件,直接在原来文件上追加数据吗?等这个文件大小达到一定程度了(比如256M),插入数据的时候在生成新的文件
问下 在hive里面 有A库 和B库 两个库都有一个C表 insert A.C select B.C 为何会很慢呢
【老贝伏枥】 数据库窗口函数-windows function
贝克汉姆 发表了文章 • 2018-09-30 22:02
【hive常用函数一】日期函数
brucelu 发表了文章 • 2018-09-27 22:18
返回值: string
说明: 转化UNIX时间戳(从1970-01-01 00:00... 显示全部 »
返回值: string
说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式
举例:
Hive> select from_unixtime(1323308943,’yyyyMMdd’) from dual;
20111208
获取当前UNIX时间戳函数: unix_timestamp语法: unix_timestamp()
返回值: bigint
说明: 获得当前时区的UNIX时间戳
举例:
hive> select unix_timestamp() from dual;
1323309615
日期转UNIX时间戳函数: unix_timestamp语法: unix_timestamp(string date)
返回值: bigint
说明: 转换格式为“yyyy-MM-dd HH:mm:ss“的日期到UNIX时间戳。如果转化失败,则返回0。
举例:
hive> select unix_timestamp(’2011-12-07 13:01:03′) from dual;
1323234063
指定格式日期转UNIX时间戳函数: unix_timestamp语法: unix_timestamp(string date, string pattern)
返回值: bigint
说明: 转换pattern格式的日期到UNIX时间戳。如果转化失败,则返回0。
举例:
hive> select unix_timestamp(’20111207 13:01:03′,’yyyyMMdd HH:mm:ss’) from dual;
1323234063
日期时间转日期函数: to_date语法: to_date(string timestamp)
返回值: string
说明: 返回日期时间字段中的日期部分。
举例:
hive> select to_date(’2011-12-08 10:03:01′) from dual;
2011-12-08
日期转年函数: year语法: year(string date)
返回值: int
说明: 返回日期中的年。
举例:
hive> select year(’2011-12-08 10:03:01′) from dual;
2011
hive> select year(’2012-12-08′) from dual;
2012
日期转月函数: month语法: month (string date)
返回值: int
说明: 返回日期中的月份。
举例:
hive> select month(’2011-12-08 10:03:01′) from dual;
12
hive> select month(’2011-08-08′) from dual;
8
日期转天函数: day语法: day (string date)
返回值: int
说明: 返回日期中的天。
举例:
hive> select day(’2011-12-08 10:03:01′) from dual;
8
hive> select day(’2011-12-24′) from dual;
24
日期转小时函数: hour语法: hour (string date)
返回值: int
说明: 返回日期中的小时。
举例:
hive> select hour(’2011-12-08 10:03:01′) from dual;
10
日期转分钟函数: minute语法: minute (string date)
返回值: int
说明: 返回日期中的分钟。
举例:
hive> select minute(’2011-12-08 10:03:01′) from dual;
3
日期转秒函数: second语法: second (string date)
返回值: int
说明: 返回日期中的秒。
举例:
hive> select second(’2011-12-08 10:03:01′) from dual;
1
日期转周函数: weekofyear语法: weekofyear (string date)
返回值: int
说明: 返回日期在当前的周数。
举例:
hive> select weekofyear(’2011-12-08 10:03:01′) from dual;
49
日期比较函数: datediff语法: datediff(string enddate, string startdate)
返回值: int
说明: 返回结束日期减去开始日期的天数。
举例:
hive> select datediff(’2012-12-08′,’2012-05-09′) from dual;
213
日期增加函数: date_add语法: date_add(string startdate, int days)
返回值: string
说明: 返回开始日期startdate增加days天后的日期。
举例:
hive> select date_add(’2012-12-08′,10) from dual;
2012-12-18
日期减少函数: date_sub语法: date_sub (string startdate, int days)
返回值: string
说明: 返回开始日期startdate减少days天后的日期。
举例:
hive> select date_sub(’2012-12-08′,10) from dual;
2012-11-28
再做with cube
roll up等操作
再做with cube
roll up等操作
如果仓库是在hive上,那原来的ETL操作 都改为使用hql脚本吧。这个查询语言是类似mysql的语法。
迁移的优先级建议先搬迁底层原始数据、然后建立ETL清洗规则,最后... 显示全部 »
如果仓库是在hive上,那原来的ETL操作 都改为使用hql脚本吧。这个查询语言是类似mysql的语法。
迁移的优先级建议先搬迁底层原始数据、然后建立ETL清洗规则,最后搬DW数据。
在搬迁底层数据时建议你hive原始表与mysql的原始表保持结构一致。
PORT=$2
DB=$3
USERNAME=$4
PASSWORD=$5
TABLE=$6
HIVE_DB=$7
HIVE_TABLE=$8
HDFS_LOCATION=$9
PARTITION_COLUMN=${10}
CO... 显示全部 »
PORT=$2
DB=$3
USERNAME=$4
PASSWORD=$5
TABLE=$6
HIVE_DB=$7
HIVE_TABLE=$8
HDFS_LOCATION=$9
PARTITION_COLUMN=${10}
CON_DATE=${11}
#format 2017-01-09
n_day=${12}
t_day=`date --date=$n_day '+%s'`
yesterday=$(date -d"yesterday $n_day" '+%s')
HIVE_DB_TABLE=$HIVE_DB.$HIVE_TABLE
MYSQL_JDBC=jdbc:mysql://$IP:$PORT/$DB
PARTITION_PATH=$HDFS_LOCATION/$n_day
echo "--------------------"
echo "--jdbc:mysql://$IP:$PORT/$DB"
echo "--username/password:$USERNAME/$PASSWORD"
echo "--mysql table:$TABLE"
echo "--hive table:$HIVE_DB.$HIVE_TABLE"
echo "--store hdfs:$HDFS_LOCATION"
echo "--partition column:$PARTITION_COLUMN"
echo "--partition path:$PARTITION_PATH"
echo "--increment date column:$CON_DATE"
echo "--schedule date:$n_day"
echo "-----start export------"
echo "select sql: select * from $TABLE where $CON_DATE >= '$yesterday' and $CON_DATE < '$t_day' and 1=1"
sqoop import --connect $MYSQL_JDBC --table $TABLE --username $USERNAME --password $PASSWORD -m 10 --append --hive-import --hive-overwrite --hive-database xxx_dw --hive-table can_schedule_list --hive-partition-key data_date --hive-partition-value $n_day --fields-terminated-by "\0001" --where "$CON_DATE>='$yesterday' and $CON_DATE<'$t_day'
如果你说的是hive以多个字段分区,hive内部只是按这几个字段组建了多个层... 显示全部 »
如果你说的是hive以多个字段分区,hive内部只是按这几个字段组建了多个层级的目录。也不是层级目录越多越好,遍历目录的时间复杂度也是O(n)
连接meta data库连接不上, 检查下你的 hive-site中的 配置吧
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>123</value>
<description>password to use against metastore database</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>spark</value>
<description>Username to use against metastore database</description>
</property>
month,
sum(sales) month_sales,--每月的数量
LAG(sum(sales),1,sum(sales)) over(order by month) pre_month_bal, --上个月数量... 显示全部 »
month,
sum(sales) month_sales,--每月的数量
LAG(sum(sales),1,sum(sales)) over(order by month) pre_month_bal, --上个月数量
sum(sum(sales)) over(partition by year order by month) year_bal_month, --年内总数量
LAST_VALUE(sum(sales)) over(partition by year order by month rows between current row and unbounded following) sales_of_last_month_of_year,
--年内最后一个月x数量
sum(sales) over(partition by year order by month rows between unbounded preceding and current row) sales_of_acc_year
--逐月累计
from table
hive -e
"use youdatabase;
insert overwrite local directory '/home/hive/userlogs' into table user_log... 显示全部 »
hive -e
"use youdatabase;
insert overwrite local directory '/home/hive/userlogs' into table user_logs;
"
如何基于大数据Hadoop hive来做数据仓库的设计
hadoop、python、Oracle 哪个前景好?
Congos+Hive项目记录(一)
华青莲 发表了文章 • 2016-07-13 11:05
Hive与HBase的集成实践
MarsJ 发表了文章 • 2016-05-30 20:13
Hive安装及使用攻略
张丹 发表了文章 • 2016-04-05 19:47
跑数出现连不上hive数据库的问题
HDP中Metrics Collector服务启动后立即终止
有条hiveSql走Tez引擎, 针对mr的配置应该不会生效了吧?
通过ODI接口把数据从Oracle数据库抽到HIVE数据库怎么解决
hiveserver2不能启动
hive每一次insert都会产生一个新的文件,请问可以不生成新的文件,直接在原来文件上追加数据吗?等这个文件大小达到一定程度了(比如256M),插入数据的时候在生成新的文件
问下 在hive里面 有A库 和B库 两个库都有一个C表 insert A.C select B.C 为何会很慢呢
hive里的with cube有啥优化方案没有,求思路
跪求一下 银行账户余额历史表 hive处理HQL , 谁有案例吗? 丢一个过来学习一下
请问一个问题啊 我habse比如 原来1亿条数据,今天存入了1000W条数据。 怎么把它多的1KW条 增量加到 hive的那个内部表里面啊? 已经存在了一个 关联表
请问下如何查看hive 的map里面有哪些数据?假设表为movie,该通过什么sql来查看?
有谁用python连接过安全模式下的hive?连接时报错:failed to connect hive server,应该怎么处理?谢谢
求助,针对大数据平台(Hadoop,Hive,HBase),有那些开源的数据安全监控管理工具?主要用于数据安全管理,非法数据访问的管理分析,谢谢。
各位大佬,请教一下,在用r链接hive的时候报错了,没太明白是什么回事
Hive3 误操作删除数据后的恢复方案
老头子 发表了文章 • 2021-03-04 17:19
Hive UDF 无法删除的BUG
老头子 发表了文章 • 2021-01-19 13:44
Python数据插入Hive中文编码问题
走马兰台 发表了文章 • 2019-11-10 18:35
hive-shell批量操作分区文件
brucelu 发表了文章 • 2018-12-25 20:34
利用钉钉机器人定时发送数据提醒&消息
brucelu 发表了文章 • 2018-12-17 13:35
windows和linux连接hive问题
走马兰台 发表了文章 • 2018-10-31 14:58
【老贝伏枥】 数据库窗口函数-windows function
贝克汉姆 发表了文章 • 2018-09-30 22:02
【hive常用函数一】日期函数
brucelu 发表了文章 • 2018-09-27 22:18
实现Hive查询操作HBase中的数据
Max_Leo 发表了文章 • 2018-08-27 19:54
大数据环境-快速安装使用
Max_Leo 发表了文章 • 2018-08-21 14:54