1
推荐
2771
阅读

自然语言介绍NLP

一、什么是自然语言处理     自然语言处理(Natural Language Processing,简称NLP)就是用一定的方法把人类的语言转化为可以用计算机来处理、理解以及运用的程序。NLP是人工智能的重要分支,和深度学习/机器学习等技术紧密结合在一起,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然...

发表了文章 • 2017-05-19 15:27 • 0 条评论

1
推荐
1749
阅读

hive如何分区

Hive 是用于大数据集查询的好工具 —— 特别是当数据集需要全表扫描时。但用户经常需要对某个列的值进行过滤,这时候分区就非常有效。分区是一个包含数据块的目录。当我们做分区的时候,会为某个列的唯一值创建一个分区。让我们来运行一个简单的示例来了解分区特性。创建分区表的语法是:create table tablename(colname t...

发表了文章 • 2017-05-19 14:11 • 0 条评论

10
推荐
1660
阅读

2016年终总结及2017规划

知不觉间,2016已经过去,2017已经到来,回首过去一年,自己感触很多:2016年主要经历:1.2016年初结识了天善,认识了梁总、周总等一大票牛人,自己收获很多2.2016年系统讲解了大数据离线部分的课程,感谢梁总给予这个机会3.收拾心情,改变心态,2017重新开始2017年的计划:1.做好本职工作,更进一步的学习数据挖掘算法...

发表了文章 • 2017-01-08 14:21 • 0 条评论

2
推荐
1906
阅读

跟我学大数据之二:NameNode和SecondaryNameNode

NameNode和SecondaryNameNode         SecondaryNameNode:看起来很像是第二个NameNode,目录结构与NameNode完全相同,但是没办法接替NameNode。         在NameNode中元数据信息分成两个文件进行存储:fsimage和edits。NameNode启动...

发表了文章 • 2016-11-27 22:21 • 1 条评论

2
推荐
1525
阅读

跟我学大数据之一:HDFS概述

概念         Hadoop是一个大数据平台的生态圈,其中最主要的两个组件是HDFS和MapReduce,HDFS用来做分布式文件存储,MapReduce用来做分布式计算,而剩下的组件要么是基于HDFS,要么是基于MapReduce,像Hbase是基于HDFS的,Hive和Sqoop基于MapReduce。背景   &n...

发表了文章 • 2016-11-27 22:16 • 0 条评论

3
推荐
1578
阅读

SecondaryNameNode机制

概述fsimage文件与edits文件是Namenode结点上的核心文件。Namenode中仅仅存储目录树信息,而关于BLOCK的位置信息则是从各个Datanode上传到Namenode上的。Namenode的目录树信息就是物理的存储在fsimage这个文件中的,当Namenode启动的时候会首先读取fsimage这个文件,将目录树信息装载到内存中。而edits存储的是日志信息...

发表了文章 • 2016-11-16 12:26 • 0 条评论

1
推荐
1634
阅读

元数据

概述在本地Linux中,在/dfs/dn下是看不到上传的文件的,我们只能看到block信息,可以用一句话描述HDFS:把客户端的大文件存放在很多节点的数据块中。在这里,出现了三个关键词:文件、节点、数据块。HDFS 就是围绕着这三个关键词设计的,我们在学习的时候也要紧抓住这三个关键词来学习。NameNode的功能是整个文件系统的...

发表了文章 • 2016-11-16 12:19 • 1 条评论

1
推荐
1579
阅读

HDFS Shell

概述:访问HDFS分布式文件系统有几种方式1. 通过web页面浏览,只能浏览,下载不能上传,修改。2. 通过Hadoop Shell的方式3. 通过Hadoop java api的方式本文主要讲解的是Hadoop Shell操作文件:hdfs用户是hadoop文件系统权限最高的账户,而不是root了,所以在录屏的例子里上传文件都是在/tmp目录下而不是/目录下现在通过...

发表了文章 • 2016-11-16 11:38 • 0 条评论

2
推荐
1963
阅读

HDFS读写流程

概述1.         HDFS集群分为两大角色:NameNode、DataNode  (Secondary Namenode)2.         NameNode负责管理整个文件系统的元数据3.         DataNode 负责管理用户的文件数据块4.&n...

发表了文章 • 2016-11-16 11:19 • 0 条评论

0
推荐
1429
阅读

关于linux的提问地址以及资料分享地址

http://www.kanterwang.cn/bbs/forum.php?mod=viewthread&tid=46&extra=page%3D1可以在这个论坛的 子目录-linux提问区提问,做统一回答。

发表了文章 • 2016-10-18 22:05 • 0 条评论

2
推荐
1873
阅读

1. 跟我学hdfs系列-hdfs概述

1.1 HDFS的主要设计理念1、存储超大文件hdfs是一种分布式文件存储结构,可以理解为一个超大型的文件系统,可以通过命令:hadoop fs –ls,显示文件系统中的根目录的文件。2、最高效的访问模式是 一次写入、多次读取HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析。每次分析...

发表了文章 • 2016-10-14 09:45 • 1 条评论