bryan的博客专栏

资料科学家,专注于大数据分析及机器学习 SparkTW 社群创办人 曾任职于程序化广告,云端服务以及电信公司

1
推荐
1917
阅读

数据应用如何成为可能

今天很有荣幸接受资策会邀请参加数据座谈会.原本是设定为大数据应用相关的题目,但是发现一般谈怎么应用的讲座或课程已经很多了,所以这次的 talk 将重点放在如果要达到数据应用,需要什么样的条件.换句话说就是,在做数据应用之前,还要做些什么.首先试想一个你我都有可能想过的情境:之前都说工程师失业就来卖鸡排...

发表了文章 • 2018-04-01 10:27 • 0 条评论

1
推荐
2321
阅读

[Deep Learning] Keras 手写辨识 MNIST

自从可以在 Colab 上用免费的 GPU 后,就有动力开始玩 Deep Learning 了.伟哉谷歌赞叹谷歌.本来我都是 Pytorch 派,但是因为公司用的 GCP 上面的 Cloud ML 只适用 google 自家的 Tensor Flow,所以还是得学一下 Tensorflow QQ.不过好险网路上很多神人,把 Tensorflow 包成更高阶的 API — Keras.千解释万解释不如一行...

发表了文章 • 2018-03-23 23:38 • 0 条评论

3
推荐
2477
阅读

DataOps 宣言与实践原则

原文:http://dataopsmanifesto.org/dataops-manifesto.html (已得到翻译同意)透过第一手在组织、工具、以及产业中与资料工作的经验,我们发现更好的方式来开发以及交付分析成果及分析工具,我们称这种方式为 DataOps。不论是在资料科学、资料工程、资料管理、大数据、商业智慧、或其他相关领域,透过我们的工作...

发表了文章 • 2018-03-01 16:02 • 0 条评论

3
推荐
3978
阅读

Hadoop + Hive + Spark 完整安装攻略

Prerequisites 桌面环境: Mac OSX虚拟机管理软体: Vagrant虚拟机: Virtual BoxClone repogit clone https://github.com/bryanyang0528/hellobicd hellobi/pyspark/envdownload filesmkdir filessh download_file.shvagrant up这边会 up 很久一切正常运行,有红字跳出来也不用怕copy ssh key 进入 master ...

发表了文章 • 2017-11-09 11:41 • 0 条评论

1
推荐
1947
阅读

[Apache Spark][基本架构] RDD特性(二)- 转换和行动

其实Spark架构不大,但是真的一环扣着一环,拆开来讲会有很多问题,但是当每个环节都搞懂后就觉得一切设计的又是非常合理(非常绕口的一段话).这几篇基本架构的文章都是根据Spark的原始论文拆出来讲的,试图将Spark的基本精神跟各位分享.        Spark主要是透过RDD来处理资料,对于RDD的操作大...

发表了文章 • 2017-09-05 17:18 • 0 条评论

2
推荐
2482
阅读

[Apache Spark][基本架构] RDD特性(一)

万丈高楼平地起,要熟悉Spark就得熟悉RDD,要熟悉RDD,就是要看Doc.当我们对RDD做运算时,其实都会产生不同的RDD.RDD的官方文件(http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD)一开始说到这些不同的RDD都共同拥有五个特性:Partition的列表(sorry不知道partition要怎样翻)...

发表了文章 • 2017-08-08 10:37 • 0 条评论