凌岸的博客专栏

CS学习历程 从零开始学习数据分析

1
推荐
1442
阅读

机器学习之Logistic回归(五)

主要内容Sigmoid函数和Logistoc回归分类器最优化理论初步梯度下降最优化算法数据中的缺失项处理我们将介绍最优化算法,并利用他们训练出一个非线性函数用于分类。利用Logistic回归的主要思想是:根据现有的数据对分类边界线建立回归公式,以此进行分类。“回归”一词源于最佳拟合,表示要找到最佳拟合参数,使用的是最优化...

发表了文章 • 2017-08-22 16:27 • 0 条评论

0
推荐
1312
阅读

机器学习之朴素贝叶斯:基于概论论的分类方法(四)

主要内容:使用概率分布进行分类学习朴素贝叶斯分类器解析RSS源数据使用朴素贝叶斯来分析不同地区的态度概率论是机器学习算法的基础,所以深刻理解概率论这个主题就十分重要。4.1 基于贝叶斯决策理论的分类方法朴素贝叶斯优点:在数据较少的情况下仍然有效,可以处理多类问题。缺点:对于输入的数据的准备方式较为敏感。...

发表了文章 • 2017-08-22 16:19 • 0 条评论

0
推荐
1534
阅读

利用python之数据分析之时间序列(八)

无论是哪个领域,时间序列数据都是一种重要的结构化的数据形式。时间序列主要有以下几种:时间戳(timestamp),特定的时刻。固定时期(period),如2016年1月或2017年全年。时间间隔(interval),起始和结束时间戳表示。pandas提供了一组标准的时间序列处理工具和数据算法。10.1 日期和时间数据类型及工具我们主要用到...

发表了文章 • 2017-07-07 11:19 • 0 条评论

0
推荐
1570
阅读

利用python数据分析之数据聚合与分组(七)

对数据集进行分组并对各组应用一个函数(聚合或者转换),是数据分析工作重要环节。数据集准备好之后,就是计算分组统计或生成透视表。pandas提供了一个灵活高效的groupby功能,可以对数据集进行切片、切块、摘要等操作。本章内容:根据一个或多个键(可以是函数,数组或DataFrame列名)拆分pandas对象。计算分组统计摘要,...

发表了文章 • 2017-07-07 11:03 • 0 条评论

0
推荐
1500
阅读

机器学习实战之决策树(三)

正方形代表判断模块(decision block) ,椭圆代表终止模块(terminating block),表示已经得到结论,可以终止运动。决策树的优势在于数据形式容易理解。决策树的很多任务都是为了数据中所蕴含的知识信息。决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,机器学习算法最终将使用这些机器从数据集中创造的规则...

发表了文章 • 2017-07-07 10:53 • 0 条评论

3
推荐
1590
阅读

机器学习实战之K-近邻算法(二)

本章内容:K-近邻分类算法从文本文件中解析和导入数据使用matplotlib创建扩散图归一化数值2-1 K-近邻算法概述简单的说,K-近邻算法采用测量不同特征值之间的距离方法进行分类。K-近邻算法优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高适用数据范围:数值型和标称型K-近邻算法(KNN),...

发表了文章 • 2017-06-09 13:16 • 0 条评论

0
推荐
1658
阅读

利用python进行数据分析之数据规整化(六)

由于文章较长,代码较多。贴出简书上的地址:利用python进行数据分析之数据规整化(一)利用python进行数据分析之数据规整化(二)利用python进行数据分析之数据规整化(三)示例:USDA视频数据库数据分析和建模方面的大量编程工作都是用在数据准备上的:加载、清理、转换、重塑。是因为,多数时候存放在文件或数据库中的数据...

发表了文章 • 2017-05-31 10:38 • 0 条评论

2
推荐
1694
阅读

利用python进行数据分析之数据加载、存储与文件格式(五)

书中源码与数据集 http://github.com/pydata/pydata-book目录6.1 读写文件格式的数据6.2 二进制数据格式6.3 使用 html 和web API6.4 使用数据库输入和输出可以划分几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用web API操作网络资源。6.1 读写文件格式的数据pandas中得解析函数函数r...

发表了文章 • 2017-05-23 15:08 • 0 条评论

0
推荐
2747
阅读

SAS函数与CALL子程序(二)

本章主要内容SAS函数定义SAS函数自变量与结果SAS函数分类日期时间函数常用概率分布函数样本统计函数随机数函数SAS Call子程序3.1 SAS函数定义3.1.1 函数定义SAS函数是一个子程序,对自变量返回一个结果值。SAS函数形式:函数名(X1,X2,...)3.1.2 函数用法1.用于组合表达式和条件语句函数用于组合表达式可以简化DATA步...

发表了文章 • 2017-04-05 09:37 • 0 条评论

2
推荐
1686
阅读

利用python进行数据分析之pandas入门(四)

pandas 引入约定In [1]: from pandas import Series,DataFrame In [2]: import pandas as pd 5.1 pandas 的数据结构介绍要使用pandas,首先要熟悉他的两个主要的数据结构:Series和DataFrame。5.1.1 SeriesSeries 是一种类似于一维数组的对象,由一组数据(各种numpy数据类型)以及一组与之相关的数据标签(即索引)组...

发表了文章 • 2017-03-31 14:38 • 0 条评论

0
推荐
3504
阅读

SAS之编程基础(一)

2.1 SAS语言组件2.1.1 SAS文件使用SAS时候会碰到不同类型的文件,如SAS数据集、SAS目录册,这些由SAS创建、储存、管理的文件就是SAS文件。所有的SAS文件都保存在SAS逻辑库中。最常用的SAS文件就是SAS数据集和SAS目录册。2.1.2 SAS外部文件SAS不能直接识别的数据文件称之为外部文件,外部文件一般用于储存数据。外部文件...

发表了文章 • 2017-03-27 12:05 • 0 条评论

2
推荐
3490
阅读

我是如何转行数据分析岗的

我的转行历程。入职已经一个星期了,想动手写写转行的经历,希望对更多的像我一样想转行的年轻人的一些帮助。和一些鼓励吧。我的大概情况是,就读于西安某大学,本科专业建筑环境与设备工程,16年7月毕业,同学很多去了工地。我的话,受不了工地居无定所,去了制造业,(事实证明我太年轻)珠三角某家电公司。由于种种原因...

发表了文章 • 2017-03-27 11:56 • 1 条评论

0
推荐
1289
阅读

R语言实战之基本数据管理(四)

本章内容:操纵日期和缺失值熟悉数据类型的转换变量的创建和重编码数据集的排序,合并与取子集选入和丢弃变量4。1一个示例处于管理岗的男性和女性在听从上级的程度是否有所不同?这种情况是否依国家的不同而不同,或者说这些性别导致的不同是否普遍存在?代码4-1 创建leadership数据库>manager<-c(1,2,3,4,5) >...

发表了文章 • 2017-03-24 13:07 • 0 条评论

0
推荐
1590
阅读

R语言实战之图形初阶(三)

                                                 主要内容:图形的创建与保存;自定义符号、线条、颜色和坐标轴;标注文本和标题控制图形维度3.1使用图形R是一个惊艳的图形构建平台...

发表了文章 • 2017-03-23 09:57 • 0 条评论

0
推荐
1257
阅读

R语言实战之创建数据集(二)

本章内容:探索R的数据结构;输入数据;导入数据;标注数据在R中,这个任务包括以下两步:(1)选择其中一种数据结构来储存数据(2)将数据输入或导入这个数据结构中2。1数据集的概念数据集通常有数据构成的一个矩形数组,行表示观测,列表示变量。R中有许多用于存储数据的结构,包括变量、向量、数组、数据框和列表。多...

发表了文章 • 2017-03-23 09:42 • 1 条评论