郭昱良的博客专栏 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

0

推荐

1183

阅读

大数据HDFS技术干货分享

1，HDFS前言设计思想分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析；在大数据系统中作用：为各类分布式运算框架（如：mapreduce，spark，tez，……）提供数据存储服务重点概念：文件切块，副本存放，元数据重要特性如下：⑴ HDFS中的文件在物理上是分块...

发表了文章 • 2017-09-08 14:01 • 0 条评论

0

推荐

1199

阅读

为什么要学深度学习

对于深度学习，我也是一个初学者，能力有限，但这些的确是我现在的真实想法，我也会按这个思路去尝试。我是一个好奇心很重的人。深度学习刚开始流行的时候，我就做过简单的学习。当时我的结论是短期内，深度学习只能在弱智能徘徊，很难进展到强智能。这个结论在今天看来，也不算过时。但真正被深度学习给 Shock 到，是去...

发表了文章 • 2017-09-07 10:34 • 0 条评论

1

推荐

4976

阅读

福利 | 最全面超大规模数据集下载链接汇总

前言小编最近在做web流量的异常检测，需要web用户日志信息的数据集，在搜索的过程中顺便总结了相关方面的数据集，包括大数据方面、机器学习方面、网络通信领域、图像领域、社会公共领域、科学、社会科学、时间序列、文本以及互联网相关等数据集的下载链接，数据集的详细介绍请点击对应链接查看详细说明，由于数据量太大...

发表了文章 • 2017-09-06 10:50 • 1 条评论

0

推荐

1345

阅读

深度学习之DNN与前向传播算法

前言深度神经网络（Deep Neural Networks，以下简称DNN）是深度学习的基础，而要理解DNN，首先我们要理解DNN模型，下面我们就对DNN的模型与前向传播算法做一个总结。从感知机到神经网络在感知机原理小结中，我们介绍过感知机的模型，它是一个有若干输入和一个输出的模型，如下图:输出和输入之间学习到一个线性关系，得...

发表了文章 • 2017-09-05 14:39 • 0 条评论

0

推荐

1436

阅读

机器学习（15）之支持向量机原理(一)线性支持向量机

前言支持向量机(Support Vecor Machine,以下简称SVM)虽然诞生只有短短的二十多年，但是自一诞生便由于它良好的分类性能席卷了机器学习领域，并牢牢压制了神经网络领域好多年。如果不考虑集成学习的算法，不考虑特定的训练数据集，在分类算法中的表现SVM说是排第一估计是没有什么异议的。SVM是一个二元分类算法，线性分类...

发表了文章 • 2017-09-04 16:54 • 0 条评论

0

推荐

1403

阅读

机器学习（14）之评价准则RoC与PR

前言在机器学习的算法评估中，尤其是分类算法评估中，我们经常听到精确率(precision)与召回率(recall)，RoC曲线与PR曲线这些概念，那这些概念到底有什么用处呢？TP, FP, TN, FN1. True Positives,TP：预测为正样本，实际也为正样本的特征数2. False Positives,FP：预测为正样本，实际为负样本的特征数3. ...

发表了文章 • 2017-08-29 15:05 • 0 条评论

1

推荐

1701

阅读

干货｜机器学习算法工程师速查表大全

该内容是Kailash Ahirwar首发在Github的，点击阅读原文可查看高清图片，以下是GitHub链接：https://github.com/kailashahirwar/cheatsheets-ai对新手来说，学习机器学习和深度学习是比较困难的，各种深度学习库也是比较难理解，所以，我(原作者)创建了这个机器学习和深度学习速查表，希望对多家有帮助：1.Keras2.Numpy3....

发表了文章 • 2017-08-29 10:32 • 0 条评论

0

推荐

1267

阅读

干货 | TF-IDF的大用处

有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果。它简单到都不需要高等数学，普通人只用10...

发表了文章 • 2017-08-28 16:33 • 0 条评论

0

推荐

1551

阅读

机器学习（13）之最大熵模型详解

前言最大熵模型(maximum entropy model， MaxEnt)也是很典型的分类算法，和逻辑回归类似，都是属于对数线性分类模型。在损失函数优化的过程中，使用了和支持向量机类似的凸优化技术。理解了最大熵模型，对逻辑回归，支持向量机以及决策树算法都会加深理解。本文就对最大熵模型的原理做一个小结。熵和条件熵在(机器学习(9...

发表了文章 • 2017-08-25 15:55 • 0 条评论

0

推荐

1609

阅读

向量化与HashTrick在文本挖掘中预处理中的体现

前言在（文本挖掘的分词原理）中，我们讲到了文本挖掘的预处理的关键一步：“分词”，而在做了分词后，如果我们是做文本分类聚类，则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick，本文我们就对向量化和特例Hash Trick预处理方法做一个总结。词袋模型在讲向量化与Hash Trick之前，我们先说说词袋模型(Bag of...

发表了文章 • 2017-08-23 10:28 • 0 条评论

0

推荐

2707

阅读

机器学习(12)之决策树总结与python实践(~附源码链接~)

前言在（机器学习(9)之ID3算法详解及python实现）中讲到了ID3算法，在（机器学习(11)之C4.5详解与Python实现（从解决ID3不足的视角））中论述了ID3算法的改进版C4.5算法。对于C4.5算法，也提到了它的不足，比如模型是用较为复杂的熵来度量，使用了相对较为复杂的多叉树，只能处理分类不能处理回归等。对于这些问题， CAR...

发表了文章 • 2017-08-21 10:52 • 0 条评论

0

推荐

1619

阅读

文本挖掘的分词原理

前言在做文本挖掘的时候，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但是也有时候需要把多个单词做为一个分词，比如一些名词如“New York”，需要做为一个词看待。而中文由于没有空格，分词就是一个需要专门去解决的问题了。无论是英文还是中文，分词的原理都是类似的，本文就对文本挖掘时的分...

发表了文章 • 2017-08-21 10:39 • 0 条评论

0

推荐

2218

阅读

机器学习(11)之C4.5详解与Python实现（从解决ID3不足的视角）

微信公众号关键字全网搜索最新排名【机器学习算法】：排名第一【机器学习】：排名第二【Python】：排名第三【算法】：排名第四前言上一篇（机器学习(9)之ID3算法详解及python实现）我们讲到ID3算法有四个主要的不足，一是不能处理连续特征，第二个就是用信息增益作为标准容易偏向于取值较多的特征，最后两个是缺失值处理...

发表了文章 • 2017-08-18 09:54 • 0 条评论

0

推荐

1157

阅读

机器学习(10)之趣味案例理解朴素贝叶斯

01病人分类的例子让我从一个例子开始讲起，你会看到贝叶斯分类器很好懂，一点都不难。某个医院早上收了六个门诊病人，如下表。症状职业疾病打喷嚏护士感冒打喷嚏农夫过敏头疼建筑工人脑震荡头疼建筑工人感冒打喷嚏教师感冒头疼教师脑震荡现在又来了第七个病人，是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大？根...

发表了文章 • 2017-08-11 13:34 • 0 条评论

0

推荐

1200

阅读

年薪30万-50万，站在风口上的大数据面临150万的人才紧缺

大数据人才缺口达150万全球最顶尖管理咨询公司麦肯锡(McKinsey)出具的一份详细分析报告显示，预计到2018年，大数据或者数据工作者的岗位需求将激增，其中大数据科学家的缺口在140000到190000之间，对于懂得如何利用大数据做决策的分析师和经理的岗位缺口则将达1500000!事实上，大数据工作者可以施展拳脚的领域非常广泛，...

发表了文章 • 2017-08-11 13:26 • 0 条评论