MarsJ's DS Road - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

19

推荐

2933

阅读

2017年年度总结

工作2017年初曾定的年度计划是下图这样的，2017年的最后一个工作日蓦然回首甚是惭愧，其中Mini Goal竟然只有Kaggle完成了一次参赛，Conference原计划6次竟然1次都没参加（比2016年的参会少），当然，报名了腾讯的几个会，都直接被拒；TD List Everyday没有哪一个是everyday都实现了；OpenSource惨遭同样的遭遇；BookList...

发表了文章 • 2018-01-25 14:29 • 7 条评论

3

推荐

2985

阅读

Kylin Cube Build 实战笔记

大数据系列课程66讲 Cube Build实战 https://edu.hellobi.com/course/136/play/lesson/2978 笔记1. 交易模型最简单的星型模型（一个事实表，3个维度表）交易事实表，通常包括交易详细信息，例如，哪个客户（客户号，账号，子账号，哪个支行开的账户）什么时候（交易时间）在哪里（哪个行）交易（转账、消费、还款等...

发表了文章 • 2017-05-27 14:22 • 4 条评论

0

推荐

2299

阅读

Kylin的优化

大数据系列课程69讲 Kylin 优化笔记 Kylin 的优化Hive优化HBase优化Kylin维度的优化计算引擎的优化Aggregation Group聚合组，是可以用来控制那些cuboids需要被计算，一个维度可以出现在多个聚合组里面，但是build时只会计算一次。Cube维度设计中，AGG数量不宜过多Mandatory Dim，强制维度，即所有Cuboid都必须包含...

发表了文章 • 2017-05-27 14:20 • 0 条评论

4

推荐

2542

阅读

whoami，查看当前用户help，帮助命令status，HBase状态version，查看HBase版本list，列出当前表清单create ‘member’,’member_id’,’address’,’baseinfo’ member是表名，member_id/address/info是列族名，之前讲过的，在HBase建表时必须指定至少一个列族名，我们这里有3个，具体列族下的列名可以不指定，在写入数据时...

发表了文章 • 2017-04-13 09:40 • 1 条评论

9

推荐

3571

阅读

数据科学之——大数据体系

1 浅谈数据科学数据科学（Data Science）这一概念自大数据崛起也随之成为数据领域的讨论热点，从去年开始，“数据科学家”便成为了一个工作职位出现在各种招聘信息上。那么究竟什么是数据科学？大数据和数据科学又是什么关系？大数据在数据科学中起到怎样的作用？本文主要是想起到科普作用，使即将或正在从事数据工作的朋...

发表了文章 • 2017-02-10 17:42 • 10 条评论

3

推荐

3735

阅读

Apache CarbonData 1.0.0 编译部署 on Mac OS

Apache CarbonData 是由华为开发、开源并支持Apache Hadoop的列式存储文件格式，支持索引、压缩以及编解码等，其目的是为了实现同一份数据达到多种需求，而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中，当前最新版为2017.1.29发布的v 1.0，本实验及文档针对v1.0进行(Spark 2.1.0 & Hadoop 2.7...

发表了文章 • 2017-02-08 09:35 • 1 条评论

6

推荐

4798

阅读

Hive复杂数据类型实战

Hive的复杂数据类型数组：ARRAY，有顺序的且每一个数组元素都必须是相同的数据类，从0开始进行索引键值对：MAP<primitive_type,data_type>, 例，map<string,float>结构体：STRUCT<col_name1:data_type,col_name2:data_type….>联合体：UNIONTYPE<data_type,data_type…>，由于目前UNONTYPE的支持...

发表了文章 • 2017-01-05 20:06 • 2 条评论

6

推荐

4593

阅读

Hive分区表实战

1. Hive分区表Partition和Bucket，为了提升查询效率，前者是粗粒度的划分，后者是细粒度的划分。建表语句中使用partitioned by指定分区字段分区表有静态分区和动态分区两种。若分区的值是确定的，那么称为静态分区字段，反之，若分区的值是非确定的，那么称之为动态分区字段。默认是采用静态分区。2. 静态分区应用场景1...

发表了文章 • 2016-12-29 09:35 • 8 条评论

2

推荐

5803

阅读

Hive环境搭建

大数据系列课程之Hive环境搭建——https://edu.hellobi.com/course/93/play/lesson/16901. 下载解压http://hive.apache.org/视频中所采用的是Hive-2.1版本2. 配置环境变量在/etc/profile文件中加入HIVE_HOME变量，并在PATH中加入$HIVE_HOME/bin3. ...

发表了文章 • 2016-12-09 14:56 • 10 条评论

8

推荐

4817

阅读

Sqoop增量导入

Sqoop 增量导入Sqoop增量导入1、核心参数2、增量模式（Mode）1、 Append2、 Lastmodified3、示例注：若需转载，请注明出处！Sqoop导出视频请参考：https://edu.hellobi.com/course/93/lessons （Sqoop增量导入部分）1、核心参数–check-column，用来指定一些列，这些列在导入时用来检查做决定数据是否要...

发表了文章 • 2016-10-14 11:29 • 0 条评论

5

推荐

3270

阅读

Sqoop导出笔记

Sqoop 导出Sqoop导出笔记1、通用参数2、导出控制参数3、全表导出4、更新导出注：若需转载，请注明出处！Sqoop导出视频请参考：https://edu.hellobi.com/course/93/lessons （Sqoop导出实战部分）1、通用参数–connect，同导入 –username，同导入 –password，同导入2、导出控制参数–columnsclass_i...

发表了文章 • 2016-10-14 11:21 • 2 条评论

1

推荐

3501

阅读

Sqoop实战导入导出数据

Sqoop 导入导出注：若需转载，请注明出处！此处创建的表bigdata用于Sqoop实战导入导出：/*Create table */drop table bigdata;create TABLE bigdata(class_id int,class_name varchar(30),class_month int,teacher varchar(20),last_mod_ts timestamp DEFAULT CURRENT_TIMESTAMP/*PRIMARY KEY (`class_id`)*/...

发表了文章 • 2016-10-08 13:04 • 4 条评论

14

推荐

7600

阅读

Sqoop导入笔记

Sqoop 导入 1、通用参数2、导入控制参数——选择部分数据导入3、目的目录（HDFS）4、分隔符5、控制导入并行度6、类型映射(导入到Hive时使用)7、实战1、查看对应库、表情况2、密码3、导入全表4、指定导入目录5、控制并行度6、控制字段分隔符7、导入部分数据8、使用文件进行导入注：若需转载，请注明出处...

发表了文章 • 2016-10-08 12:58 • 24 条评论

14

推荐

3722

阅读

YARN笔记

hadoopYARN 笔记1. YARN的产生背景2. YARN的设计思想3. YARN的基本架构4. YARN的工作流程（小结）YARN课程地址：https://edu.hellobi.com/course/93/play/lesson/14711. YARN的产生背景MRv1编程模型：Map阶段和Reduce阶段数据处理引擎：MapTask和ReduceTask运行时环境：JobTracker（资源管理和作业控制）和TaskTracker（...

发表了文章 • 2016-09-27 19:16 • 0 条评论

25

推荐

18965

阅读

Hadoop集群搭建笔记

1、安装虚拟机VMware workstationCentOS 镜像安装Linux虚拟机：（在Win7上）1）安装VMwareWorkstations（可修改配置）2）添加CentOS镜像（启动安装 ->配置网络）网络配置：NAT模式网络重启：service network restart关闭系统：shutdown -h now 2、远程连接Xshell5Xftp5 3、在Linux上搭建Hadoop集群下...

发表了文章 • 2016-09-07 08:55 • 109 条评论