Kenny的Hadoop心得体会

分享大数据心得体会文章

0
推荐
1134
阅读

Python自然语言处理实战:计算两篇文章的相似度

本文来自《Python自然语言处理实战》章节内容,机械工业出版社华章授权发布,未经允许,禁止转载!本节将利用训练好的词向量和段落向量对两篇关于天津全运会的新闻进行向量化,并计算两篇新闻的相似度。如下是两篇新闻:新闻1:6日,第十三届全运会女子篮球成年组决赛在天津财经大学体育馆打响,中国篮协主席姚明到场观...

发表了文章 • 2018-06-25 21:51 • 0 条评论

1
推荐
2516
阅读

Python自然语言处理实战:日期实体提取

本文来自《Python自然语言处理实战》章节内容,机械工业出版社华章授权发布,未经允许,禁止转载!今天我要介绍的案例是自然语言处理中最为常见的:关键实体识别- 日期识别!在工程项目中,我们会经常面临日期识别的任务。当针对结构化数据时,日期设置一般有良好的规范,在数据入库时予以类型约束,在需要时能够通过解...

发表了文章 • 2018-06-25 21:12 • 0 条评论

0
推荐
1045
阅读

新书推荐—自然语言处理实战(内含赠书福利)

这是一本关于中文自然语言实战处理(简称NLP)的书,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。NLP是一门融语言学、计算机科学、数学于一体的科学。本书的选题偏重实战,不仅系统介绍了NLP所需要设计的知识点也同时教会读者如何...

发表了文章 • 2018-06-24 10:02 • 0 条评论

2
推荐
1009
阅读

挑战年薪百万-自然语言处理入门二

简单统计if __name__ == '__main__':     saying = ['After', 'all', 'is', 'said', 'and', 'done',               'more', 'is', 'said', 'than', 'done']     tokens = set(saying)     tokens = sor...

发表了文章 • 2017-05-26 10:36 • 0 条评论

7
推荐
1692
阅读

挑战年薪百万-自然语言处理入门一

所谓“自然语言”,是指人们日常交流使用的语言,如英语、印地语随着不断演化,很难用明确的规则来刻画。从广义上,“自然语言处理”(Natural Language Processing简称NLP)包含所有计算机对自然语言进行的操作,从最简单的通过计数词出现的频率来比较不同的写作风格到最复杂的完全“理解”人所说的话。基于NLP的技术应用日益...

发表了文章 • 2017-05-26 10:15 • 0 条评论

2
推荐
1642
阅读

潜在语义索引(LSI)文本相似度计算

1、潜在语义索引算法介绍潜在语义索引(LSI)是一种非监督的学习算法,它的原理是先把句子分词,用BOW方法对句子进行特征提取,组成句子的特征矩阵。把矩阵通过奇异值分解(SVD)的降维方法一个降维去燥后的新矩阵,来表示原来的矩阵。由特征组成的矩阵降维后,可以理解为把原来特征映射到其他低维空间。通过把词语映射到...

发表了文章 • 2017-05-24 23:10 • 0 条评论

1
推荐
1495
阅读

自然语言介绍NLP

一、什么是自然语言处理     自然语言处理(Natural Language Processing,简称NLP)就是用一定的方法把人类的语言转化为可以用计算机来处理、理解以及运用的程序。NLP是人工智能的重要分支,和深度学习/机器学习等技术紧密结合在一起,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然...

发表了文章 • 2017-05-19 15:27 • 0 条评论

1
推荐
848
阅读

hive如何分区

Hive 是用于大数据集查询的好工具 —— 特别是当数据集需要全表扫描时。但用户经常需要对某个列的值进行过滤,这时候分区就非常有效。分区是一个包含数据块的目录。当我们做分区的时候,会为某个列的唯一值创建一个分区。让我们来运行一个简单的示例来了解分区特性。创建分区表的语法是:create table tablename(colname t...

发表了文章 • 2017-05-19 14:11 • 0 条评论

10
推荐
838
阅读

2016年终总结及2017规划

知不觉间,2016已经过去,2017已经到来,回首过去一年,自己感触很多:2016年主要经历:1.2016年初结识了天善,认识了梁总、周总等一大票牛人,自己收获很多2.2016年系统讲解了大数据离线部分的课程,感谢梁总给予这个机会3.收拾心情,改变心态,2017重新开始2017年的计划:1.做好本职工作,更进一步的学习数据挖掘算法...

发表了文章 • 2017-01-08 14:21 • 0 条评论

2
推荐
1054
阅读

跟我学大数据之二:NameNode和SecondaryNameNode

NameNode和SecondaryNameNode         SecondaryNameNode:看起来很像是第二个NameNode,目录结构与NameNode完全相同,但是没办法接替NameNode。         在NameNode中元数据信息分成两个文件进行存储:fsimage和edits。NameNode启动...

发表了文章 • 2016-11-27 22:21 • 1 条评论

2
推荐
788
阅读

跟我学大数据之一:HDFS概述

概念         Hadoop是一个大数据平台的生态圈,其中最主要的两个组件是HDFS和MapReduce,HDFS用来做分布式文件存储,MapReduce用来做分布式计算,而剩下的组件要么是基于HDFS,要么是基于MapReduce,像Hbase是基于HDFS的,Hive和Sqoop基于MapReduce。背景   &n...

发表了文章 • 2016-11-27 22:16 • 0 条评论

3
推荐
894
阅读

SecondaryNameNode机制

概述fsimage文件与edits文件是Namenode结点上的核心文件。Namenode中仅仅存储目录树信息,而关于BLOCK的位置信息则是从各个Datanode上传到Namenode上的。Namenode的目录树信息就是物理的存储在fsimage这个文件中的,当Namenode启动的时候会首先读取fsimage这个文件,将目录树信息装载到内存中。而edits存储的是日志信息...

发表了文章 • 2016-11-16 12:26 • 0 条评论

1
推荐
910
阅读

元数据

概述在本地Linux中,在/dfs/dn下是看不到上传的文件的,我们只能看到block信息,可以用一句话描述HDFS:把客户端的大文件存放在很多节点的数据块中。在这里,出现了三个关键词:文件、节点、数据块。HDFS 就是围绕着这三个关键词设计的,我们在学习的时候也要紧抓住这三个关键词来学习。NameNode的功能是整个文件系统的...

发表了文章 • 2016-11-16 12:19 • 1 条评论

1
推荐
834
阅读

HDFS Shell

概述:访问HDFS分布式文件系统有几种方式1. 通过web页面浏览,只能浏览,下载不能上传,修改。2. 通过Hadoop Shell的方式3. 通过Hadoop java api的方式本文主要讲解的是Hadoop Shell操作文件:hdfs用户是hadoop文件系统权限最高的账户,而不是root了,所以在录屏的例子里上传文件都是在/tmp目录下而不是/目录下现在通过...

发表了文章 • 2016-11-16 11:38 • 0 条评论

2
推荐
1035
阅读

HDFS读写流程

概述1.         HDFS集群分为两大角色:NameNode、DataNode  (Secondary Namenode)2.         NameNode负责管理整个文件系统的元数据3.         DataNode 负责管理用户的文件数据块4.&n...

发表了文章 • 2016-11-16 11:19 • 0 条评论