全栈数据的博客专栏

公众号:全栈数据 新书:《全栈数据之门》 全栈数据技术,涉及:Linux、Python、SQL、大数据、Hadoop、Spark、数据分析、数据挖掘、机器学习、深度学习、MAC等

1
推荐
3223
阅读

新书《全栈数据之门》完整目录

全栈数据之门前言 自强不息,厚德载物0x1 Linux,自由之光0x10 Linux,你是我的眼0x11 Linux 基础,从零开始01 Linux 之门02 文件操作03 权限管理04 软件安装05 实战经验0x12 Sed 与Grep,文本处理01 文本工具02 grep 的使用03 grep 家族04 sed 的使用05 综合案例0x13 数据工程,必备Shell01 Shell 分析02 文件探...

发表了文章 • 2017-05-15 11:25 • 1 条评论

0
推荐
1458
阅读

翻译:如果成为数据科学家并像他们一样思考

How to think like a data scientist to become one如果成为数据科学家并像他们一样思考原文链接:http://www.kdnuggets.com/2017/03/think-like-data-scientist-become-one.html译者:云戒:《全栈数据之门》作者 为了便于各位对照,我把原文也附上,初始翻译使用google translate,修正词不达意的细节。并增加部...

发表了文章 • 2017-04-18 10:23 • 0 条评论

0
推荐
1153
阅读

三个框架与库,SFrame,Hdp2与skflow

今天给各位亲推荐数据科学的三个框架或者库。01 SFrame这家公司最初的名字叫graphlab,后来改名为dato,最近又进行了一次改名,叫turi了,这名字起得,图日吗?最近这次改名,是因为和datto的名字太相近了,被datto告了,因此改名为turi,目前的网站也已经变成turi.com了。其机器学习框架create貌似非常强大,提供的功能...

发表了文章 • 2017-04-18 10:09 • 0 条评论

0
推荐
1492
阅读

0x14 异常挖掘,Isolation Forest

01 孤立森林isolation,意为孤立/隔离,是名词,其动词为isolate,forest是森林,合起来就是“孤立森林”了,也有叫“独异森林”,好像并没有统一的中文叫法。可能大家更习惯用其英文的名字isolation forest,简称iForest。iForest算法用于挖掘异常(Anomaly)数据,或者说离群点挖掘,总之是在一大堆数据中,找出与其它数据的...

发表了文章 • 2017-04-18 10:07 • 0 条评论

0
推荐
1471
阅读

0x12 模型评估,交叉验证

01 测试与训练机器学习的目的,就是要让程序从已知的数据中自己找出规律,然后将规律应用到未知的数据中去。不同于常规程序的步骤,由程序员事先设置好各种条件与跳转指令或者步骤,由程序一步步执行,直到程序结尾。机器学习的程序,程序员只负责设计程序如何去学习,至于学到什么规律,那主要是由给定的数据来决定的。...

发表了文章 • 2017-04-18 09:56 • 0 条评论

0
推荐
1254
阅读

MXNet,你的深度选择

又有一段时间未曾更新公众号的内容了,惭愧万分。今天向大家介绍一个深度学习的框架:MXNet,如题图所示,李沐大神李少帅是MXNet框架的主要贡献者之一。题图整理自李少帅在知乎的文章《深度学习·炼丹入门》,地址:https://zhuanlan.zhihu.com/p/23781756MXNet由dmlc(Distributed (Deep) Machine Learning Community)...

发表了文章 • 2017-04-18 09:45 • 0 条评论

0
推荐
1077
阅读

0x06 缘起Linux, 一入Mac误终身

01 缘起Linux宇宙在成、住、坏、空的循环成灭过程中,现在的劫称为贤劫,贤劫中出现于世之千佛即为贤劫千佛。当今世界之各种科技与艺术,基本上全为贤劫千佛在推动。苹果公司总裁乔布斯是贤动千佛中的金刚慧佛,由他创造的Ipod,Iphone,Mac,引领着IT世界之潮流。很久以前,痴迷于Linux,折腾各种定制与个性的东西。从r...

发表了文章 • 2017-04-18 09:38 • 0 条评论

0
推荐
1097
阅读

0x05 Python数据分析,Aanconda八斩刀

武侠,是成人的童话。江湖,是门派的斗争。要想在江湖中闯出名堂,那么称手的兵器很有必要。数据科学已经开山立派,Python便是其中独领风搔的兵器。Python已经成为数据分析领域事实上的标准了,详情参见文章《0x01 念念Python,必有回响》。如果你的目标是成为一个数据科学家或者数据工程师,那么配置好自己的Python环境...

发表了文章 • 2017-04-18 09:22 • 0 条评论

0
推荐
1198
阅读

0x04 App接口,三大环境

互联天下,移动为王。曾经一度也做过移动APP的后端开发,根据自己的一些经验,谈一谈后端API接口的开发流程与环境的关系。01 后端三个环境一、开发环境通常是api开发人员的自己机器,一般的作法是每个开发人员自己有一个环境,也有几个开发人员共用一个开发环境的情况。开发环境的优势:1. 程序员在自己的环境,有自己熟...

发表了文章 • 2017-04-18 09:18 • 0 条评论

7
推荐
1249
阅读

0x03 见朱者赤,相亲knn

城市越大,圈子越小,人越感到孤单。怀念家乡的小城市,随便走一圈,几乎处处都有熟人。城市大了,汇聚了全国的人,逛上一天,也不见得遇到个熟人。于是,寻找异性伴侣的新兴方式--相亲,便出现了。01 朴素的思想相亲,在对对方一无所知的情况下,怎么快速的掌握对方的信息呢?可以通过对方的朋友来识别。聊一下对方的亲...

发表了文章 • 2017-04-18 09:15 • 0 条评论

0
推荐
1377
阅读

0x15 数据工程师,常用Shell命令

01 Shell命令行对于经常和数据打交道的人来说,数据工程师应该也是常常和Linux打交道。Linux以其强大的命令行称霸江湖,因此,Shell命令也是数据极客的必修兵器。利用Linux命令行的几个命令,就可以完成一些简单的统计分析工作,比如 利用wc命令统计文件行,单词数,字符数,利用sort排序和去重,再结合uniq可以进...

发表了文章 • 2017-04-11 16:06 • 0 条评论

0
推荐
1779
阅读

离线安装hadoop最新发行版本hdp2.4

hdp2.4是hortworks最新推出的100%开源的hadoop发行版本,其中包含了最新的spark 1.6,冲着这点,使用离线方式安装最新的2.4版本。1. 主要点假设服务器无网络环境,或者其中只有一台能上外网,或者上外网速度慢到相当于无网络。离线下载数据包,解压,放到其中一台机器,开启http支持,其它内网能访问。配置ubuntu的源,...

发表了文章 • 2017-04-11 16:04 • 0 条评论

0
推荐
1406
阅读

从0搭建MXNet环境

01 目标在没有Linux环境的前提下,从头开始安装Linux环境与cuda并且编译安装mxnet的gpu加速环境及配置python接口。02 步骤安装ubuntu 16.04安装cuda 8.0安装anaconda3编译mxnet 0.94安装opencv303 说明为什么使用16.04?目前最新的长期支持版本,安装一些新玩意的时候,少解决大量的依赖,比如最常用的gcc版本依赖。为什...

发表了文章 • 2017-04-11 16:03 • 0 条评论