MarsJ's DS Road

专注于大数据架构技术、数据挖掘/机器学习以及大数据的行业应用。

19
推荐
2933
阅读

2017年年度总结

工作2017年初曾定的年度计划是下图这样的,2017年的最后一个工作日蓦然回首甚是惭愧,其中Mini Goal竟然只有Kaggle完成了一次参赛,Conference原计划6次竟然1次都没参加(比2016年的参会少),当然,报名了腾讯的几个会,都直接被拒;TD List Everyday没有哪一个是everyday都实现了;OpenSource惨遭同样的遭遇;BookList...

发表了文章 • 2018-01-25 14:29 • 7 条评论

3
推荐
2985
阅读

Kylin Cube Build 实战笔记

大数据系列课程66讲 Cube Build实战 https://edu.hellobi.com/course/136/play/lesson/2978 笔记1. 交易模型最简单的星型模型(一个事实表,3个维度表)交易事实表,通常包括交易详细信息,例如,哪个客户(客户号,账号,子账号,哪个支行开的账户)什么时候(交易时间)在哪里(哪个行)交易(转账、消费、还款等...

发表了文章 • 2017-05-27 14:22 • 4 条评论

0
推荐
2299
阅读

Kylin的优化

大数据系列课程69讲 Kylin 优化笔记 Kylin 的优化Hive优化HBase优化Kylin维度的优化计算引擎的优化Aggregation Group聚合组,是可以用来控制那些cuboids需要被计算,一个维度可以出现在多个聚合组里面,但是build时只会计算一次。Cube维度设计中,AGG数量不宜过多Mandatory Dim,强制维度,即所有Cuboid都必须包含...

发表了文章 • 2017-05-27 14:20 • 0 条评论

4
推荐
2542
阅读

HBase操作实践

whoami,查看当前用户help,帮助命令status,HBase状态version,查看HBase版本list,列出当前表清单create ‘member’,’member_id’,’address’,’baseinfo’ member是表名,member_id/address/info是列族名,之前讲过的,在HBase建表时必须指定至少一个列族名,我们这里有3个,具体列族下的列名可以不指定,在写入数据时...

发表了文章 • 2017-04-13 09:40 • 1 条评论

9
推荐
3571
阅读

数据科学之——大数据体系

1 浅谈数据科学数据科学(Data Science)这一概念自大数据崛起也随之成为数据领域的讨论热点,从去年开始,“数据科学家”便成为了一个工作职位出现在各种招聘信息上。那么究竟什么是数据科学?大数据和数据科学又是什么关系?大数据在数据科学中起到怎样的作用?本文主要是想起到科普作用,使即将或正在从事数据工作的朋...

发表了文章 • 2017-02-10 17:42 • 10 条评论

3
推荐
3735
阅读

Apache CarbonData 1.0.0 编译部署 on Mac OS

Apache CarbonData 是由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、压缩以及编解码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中,当前最新版为2017.1.29发布的v 1.0,本实验及文档针对v1.0进行(Spark 2.1.0 & Hadoop 2.7...

发表了文章 • 2017-02-08 09:35 • 1 条评论

6
推荐
4798
阅读

Hive复杂数据类型实战

Hive的复杂数据类型数组:ARRAY,有顺序的且每一个数组元素都必须是相同的数据类,从0开始进行索引键值对:MAP<primitive_type,data_type>, 例,map<string,float>结构体:STRUCT<col_name1:data_type,col_name2:data_type….>联合体:UNIONTYPE<data_type,data_type…>,由于目前UNONTYPE的支持...

发表了文章 • 2017-01-05 20:06 • 2 条评论

6
推荐
4593
阅读

Hive分区表实战

1. Hive分区表Partition和Bucket,为了提升查询效率,前者是粗粒度的划分,后者是细粒度的划分。建表语句中使用partitioned by指定分区字段分区表有静态分区和动态分区两种。若分区的值是确定的,那么称为静态分区字段,反之,若分区的值是非确定的,那么称之为动态分区字段。默认是采用静态分区。2. 静态分区应用场景1...

发表了文章 • 2016-12-29 09:35 • 8 条评论

2
推荐
5803
阅读

Hive环境搭建

大数据系列课程之Hive环境搭建——https://edu.hellobi.com/course/93/play/lesson/16901.    下载解压http://hive.apache.org/视频中所采用的是Hive-2.1版本2.    配置环境变量在/etc/profile文件中加入HIVE_HOME变量,并在PATH中加入$HIVE_HOME/bin3.    ...

发表了文章 • 2016-12-09 14:56 • 10 条评论

8
推荐
4817
阅读

Sqoop增量导入

Sqoop 增量导入Sqoop增量导入1、核心参数2、增量模式(Mode)1、 Append2、 Lastmodified3、示例注:若需转载,请注明出处!Sqoop导出视频请参考:https://edu.hellobi.com/course/93/lessons  (Sqoop增量导入部分)1、核心参数–check-column,用来指定一些列,这些列在导入时用来检查做决定数据是否要...

发表了文章 • 2016-10-14 11:29 • 0 条评论

5
推荐
3270
阅读

Sqoop导出笔记

Sqoop 导出Sqoop导出笔记1、 通用参数2、导出控制参数3、全表导出4、更新导出注:若需转载,请注明出处!Sqoop导出视频请参考:https://edu.hellobi.com/course/93/lessons  (Sqoop导出实战部分)1、 通用参数–connect,同导入 –username,同导入 –password,同导入2、导出控制参数–columnsclass_i...

发表了文章 • 2016-10-14 11:21 • 2 条评论

1
推荐
3501
阅读

Sqoop实战导入导出数据

Sqoop 导入 导出注:若需转载,请注明出处!此处创建的表bigdata用于Sqoop实战导入导出:/*Create table */drop table bigdata;create TABLE bigdata(class_id int,class_name varchar(30),class_month int,teacher varchar(20),last_mod_ts timestamp DEFAULT CURRENT_TIMESTAMP/*PRIMARY KEY (`class_id`)*/...

发表了文章 • 2016-10-08 13:04 • 4 条评论

14
推荐
7600
阅读

Sqoop导入笔记

Sqoop 导入 1、通用参数2、导入控制参数——选择部分数据导入3、目的目录(HDFS)4、分隔符5、控制导入并行度6、类型映射(导入到Hive时使用)7、实战1、 查看对应库、表情况2、 密码3、 导入全表4、 指定导入目录5、 控制并行度6、 控制字段分隔符7、 导入部分数据8、 使用文件进行导入注:若需转载,请注明出处...

发表了文章 • 2016-10-08 12:58 • 24 条评论

14
推荐
3722
阅读

YARN笔记

hadoopYARN 笔记1. YARN的产生背景2. YARN的设计思想3. YARN的基本架构4. YARN的工作流程(小结)YARN课程地址:https://edu.hellobi.com/course/93/play/lesson/14711. YARN的产生背景MRv1编程模型:Map阶段和Reduce阶段数据处理引擎:MapTask和ReduceTask运行时环境:JobTracker(资源管理和作业控制)和TaskTracker(...

发表了文章 • 2016-09-27 19:16 • 0 条评论

25
推荐
18965
阅读

Hadoop集群搭建笔记

1、安装虚拟机VMware workstationCentOS 镜像 安装Linux虚拟机:(在Win7上)1)安装VMwareWorkstations(可修改配置)2)添加CentOS镜像(启动安装 ->配置网络)网络配置:NAT模式网络重启:service network restart关闭系统:shutdown -h now 2、远程连接Xshell5Xftp5 3、在Linux上搭建Hadoop集群下...

发表了文章 • 2016-09-07 08:55 • 109 条评论