星环号

全球六大企业级大数据核心平台数据库软件厂商之一

0
推荐
1407
阅读

大数据上的数据稽查原理和方法介绍(上)

本次内容将分为上下两篇介绍数据稽查的原理与方法。本文涉及其概念、处理流程、相关语法开关的简单介绍。何为数据稽查经常参与数据分析的人员知道,在向业务表导入数据时,如果数据清洗做的不彻底,很可能会无意录入脏数据。这些脏数据的存在将影响数据分析和查询结果的精确性。为了提高分析准确度,减少由脏数据带来的...

发表了文章 • 2017-03-20 13:04 • 0 条评论

1
推荐
1132
阅读

ETL调优的一些分享(下)

如在上篇文章《ETL调优的一些分享(上)》中已介绍的,ETL是构建数据仓库的必经一环,它的执行性能对于数据仓库构建性能有重要意义,因此对它进行有效的调优将十分重要。ETL业务的调优可以从若干思路开展,上文我们已经介绍了其中三点,本文我们将再分享如下几点建议。减少不必要的事务表的使用减少事务性操作的窗口时间...

发表了文章 • 2017-03-13 10:36 • 0 条评论

0
推荐
1095
阅读

ETL调优的一些分享(上)

ETL是构建数据仓库的重要一环。通过该过程用户将所需数据提取出来,并按照已定义的模型导入数据仓库。由于ETL是建立数据仓库的必经过程,它的效率将影响整个数据仓库的构建,因此它的有效调优具有很高的重要性。在实际应用中我们通常建议把ETL业务的调优分为若干思路,从而保证调优充分有序进行,避免遗漏,最大化提升ET...

发表了文章 • 2017-03-06 10:42 • 0 条评论

2
推荐
1480
阅读

从阅读量看大数据技术关注热点

十五早已过去,春节正式结束,而我们也早已在新的一年中工作了两周。吾日三省吾身,为了发现过去本公众号运营的不足之处,反思过去,以新的姿态迎头赶上新一年的朝阳,我们决定对2016年内发表的各个文章进行总结,整理出从本公众号开放以来到春节前发表的各原创文章阅读量。我们用积极的态度去探索,用科学的数据分析手...

发表了文章 • 2017-02-21 15:19 • 1 条评论

1
推荐
2848
阅读

技术 | 如何让Kafka集群免受黑客攻击

前情回顾如《技术|如何让你的Hadoop集群免受黑客攻击》所介绍的,近期许多安全组织都检测到勒索软件正在攻击Hadoop集群,这些勒索攻击的攻击模式都较为相似,都是简单的利用相关产品的不安全配置,使攻击者有机可乘,进而对相关数据进行操作。根据shodan.io的统计结果显示,在中国有8300多个Hadoop集群的50070端口暴露...

发表了文章 • 2017-02-13 19:02 • 0 条评论

1
推荐
1546
阅读

技术|如何让你的Hadoop集群免受黑客攻击

编者按:年前世界各地爆发了大量的针对Hadoop集群的黑客攻击。Gartner在其2017版的《Market Guide for Hadoop Distributions 》里面特别强调企业在规划设计Hadoop基础设施时特别要注意“Design for data security before - not after - implementation”。数据安全的重要性人尽皆知,星环很早之前就意识到这一点,设有专门...

发表了文章 • 2017-02-13 10:48 • 0 条评论

0
推荐
1220
阅读

SQL优化:基于代价的优化方法的介绍与使用(下)

前言在 SQL优化:基于代价的优化方法的介绍与使用(上)一文中我们介绍了CBO优化概念和它的基本使用方法,包括实现统计信息收集的两种手段:ANALYZE 语句; 脚本工具preanalyze.sh。并通过Hive CBO 和 Inceptor CBO 在Inceptor引擎中带来的性能提升幅度对比,以体现Inceptor CBO的良好优化能力。本文将衔接上文内容...

发表了文章 • 2017-01-22 15:59 • 0 条评论

2
推荐
1568
阅读

SQL优化:基于代价的优化方法的介绍与使用(上)

CBO概述CBO 全称是Cost Based Optimization(基于代价的优化方式),是针对SQL执行计划进行优化的重要工具。CBO最初由开源Hive在0.14版本基于Apache Calcite项目引入,星环以此为基础对开源Hive CBO进行了功能增强和扩展,在Inceptor中实现了Inceptor CBO,进一步提升SQL兼容性和执行性能。与Hive中原有的主要基于RBO(R...

发表了文章 • 2017-01-16 11:18 • 0 条评论

0
推荐
1368
阅读

Transpedia的发布及其使用攻略

Transpedia是星环随TDH 4.6发布的手册在线同步网站。我们希望通过它拓宽用户查阅手册的渠道,提升文档浏览检索的方便性。解决的问题Transpedia出现之前,支持论坛(support.transwarp.cn)是星环科技主要的文档发布平台,它提供了各个手册pdf版本的下载链接。需要文档时,用户必须先下载,然后再对手册进行浏览或查询。...

发表了文章 • 2017-01-06 20:20 • 0 条评论

0
推荐
1752
阅读

技术|Inceptor任务的图形化分析(三)

如前两篇文章介绍的,在Inceptor中,Jobs被划分为Stage执行,每个Stage由多个Task在不同Executor上实现,以处理存储位于不同节点的数据。Jobs、Stage、Executor以及关于存储的标签页分析方法已经提供于之前两篇文章,本文将介绍如何观察指定Stage中的Task信息,该信息页面通过点击Cluster标签页中相关Stage的链接进入(...

发表了文章 • 2017-01-03 19:18 • 0 条评论

0
推荐
1505
阅读

技术|Inceptor任务的图形化分析(二)

Inceptor管理界面端顶部提供了七个标签页:Jobs、Cluster、Local、Storage、Holodesk、Environment、Executors。上一篇文章中已介绍了Jobs和Cluster两个标签页的使用和浏览方式,本文将衔接上篇文章对剩余5个标签页的使用和浏览方式进行介绍。这五个页面中,Local、Holodesk和Executor三个页面较常使用。其中,Local页显...

发表了文章 • 2016-12-29 18:13 • 0 条评论

1
推荐
1571
阅读

技术|六种常见SQL场景及其在TDH中的优化策略

在《Hadoop平台中SQL优化的四个思路》一文中,我们对Hadoop平台中的SQL优化思路做了简单介绍,为的是让读者能对SQL优化有一个宏观掌握。本文将针对Transwarp Data Hub(TDH)中的常见SQL的场景,继续深入讨论如何对不同类型SQL选择不同的优化策略。根据SQL特性以及数据特性,本文把TDH中涉及的SQL场景分为以下六类,分别...

发表了文章 • 2016-12-22 10:54 • 0 条评论

0
推荐
1470
阅读

技术|Inceptor任务的图形化分析(一)

了解执行机器的运行情况对于性能调优、执行过程的问题排查十分重要。为方便对执行情况的监控,Inceptor专门提供了管理界面(4040端口),用于给用户查看系统性能和各机器各进程对各任务的执行情况。为达到有效分析语句执行过程的目的,在浏览管理界面时,我们应该将重点放在以下这些环节:检查执行耗时,报错,查看所有E...

发表了文章 • 2016-12-22 10:37 • 0 条评论

0
推荐
2138
阅读

技术|Kappa:比Lambda更好更灵活的实时处理架构

前言我们在10月10日推送的文章《深入浅出解析大数据Lambda架构》中,详细分析了Lambda架构的技术背景,架构原理,并对基于Lambda架构设计的智慧交通系统案例进行了分析,得到了众位读者的热烈反响。为了进一步探讨这种批处理和实时处理有效整合在同一系统的架构,我们将在今天的文章中分析Lambda三层结构模型的适用场景...

发表了文章 • 2016-10-24 18:54 • 0 条评论

0
推荐
1376
阅读

技术|TDH的图形化集群服务指标监测工具及使用方法介绍

基础介绍作为一个分布式大数据处理平台,Transwarp Data Hub(TDH)中的服务通常有多个角色,例如HDFS服务角色包括NameNode (NameNode又分Active NameNode和Standby NameNode)、多个DataNode和多个JournalNode。每个角色都有一系列的指标来衡量其健康状况,所有角色的健康状况决定了服务的健康状况。指标多固然给集群的...

发表了文章 • 2016-10-17 15:19 • 0 条评论