疯狂的拖鞋的博客专栏

少壮不努力,老大开夏利。分享机器学习,数据挖掘知识

0
推荐
1393
阅读

《用 Python 学微积分》笔记 3

《用 Python 学微积分》原文见参考资料 1。16、优化用一个给定边长 4 的正方形来折一个没有盖的纸盒,设纸盒的底部边长为 l,则纸盒的高为 (4-l)/2,那么纸盒的体积为:V(l)=l24−l2V(l)=l24−l2怎样才能使纸盒的容积最大?也就是在 l>0,4-l>0 的限制条件下,函数 V(l) 的最大值是多少?优化问题关心的就是这样的问...

发表了文章 • 2017-04-27 16:58 • 0 条评论

1
推荐
1310
阅读

机器学习笔记—主成分分析

在介绍因子分析时,我们把数据 x∈Rn 建模在 k 维子空间上,k<<n。我们假设每个点 x(i) 是这样生成的:先从 k 维高斯多元高斯分布中采样得到 z(i),再通过计算 μ+Λz(i) 将 z 映射到 n 维空间,给 μ+Λz(i) 增加协方差噪声 ψ,得到 x(i)。因子分析是基于概率模型,参数估计使用了迭代式 EM 算法...

发表了文章 • 2017-04-26 14:48 • 0 条评论

0
推荐
1584
阅读

数据分析练习题

练习 1:图解中国人的生活水平变化你认为应该用什么样的数字来度量中国人的生活水平变化?先来瞎想下,哪些方面能体现人们的生活水平变化?从物质层面上说,吃饱穿暖了,吃肉喝酒不是问题了,开上车了,开上好车了,住上好房子了,超市、商场物品极大丰富,饭店、宾馆、租车店等各种服务应有尽有,遍地开花,从精神层面...

发表了文章 • 2017-04-26 14:38 • 0 条评论

3
推荐
2108
阅读

在 Spark 中使用 IPython Notebook

本文是从 IPython Notebook 转化而来,效果没有本来那么好。主要为体验 IPython Notebook。至于题目,改成《在 IPython Notebook 中使用 Spark》也可以,没什么差别。为什么是 Spark?因为这两天在看《Spark 机器学习》这本书第 3 章,所以就顺便做个笔记。简单介绍下,IPython notebook 对数据科学家来说是个交互地呈现...

发表了文章 • 2017-04-26 14:19 • 0 条评论

1
推荐
1474
阅读

Numpy 练习题

1. 使用循环和向量化两种不同的方法来计算 100 以内的质数之和。先定义个判断质数的函数。ps:纯手工打造,原生态,哈哈。def checkprime(x): if x<=1: return False; prime=True; for i in range(2 , 1+x/2): if x%i == 0: prime = False; break; return p...

发表了文章 • 2017-04-25 17:07 • 0 条评论

3
推荐
1761
阅读

Numpy 学习笔记

Numpy 基础Numpy 是 Python 科学计算的基础,学会如何创建、读取、更改向量数据。创建向量有许多方法,举例说明:import numpy as np print(np.array([2,3,4])) # 可以从列表转换而来,np.array 会尝试为数组推断出一个较为合适的数据类型[2 3 4]print(np.zeros( (3,4) , dtype=np.int32)) # zeros 可以创建指定长度或...

发表了文章 • 2017-04-25 16:50 • 0 条评论

1
推荐
1648
阅读

Matplotlib 练习题

1. 绘制一个二维随机漫步的图形直接上代码:%pylab inline nsteps = 1000 draws = np.random.randint(-1,2,size=(2,nsteps)) walks = draws.cumsum(1) plot(walks[0,:],walks[1,:]);Populating the interactive namespace from numpy and matplotlib先生成 1000 个随机漫步方向,方向是从 {-1, 0, 1} 中随机挑两个值(两...

发表了文章 • 2017-04-24 15:43 • 0 条评论

2
推荐
1863
阅读

Pandas 练习题

1. 使用 pandas 中的函数,下载上证综指过去一段时间的数据,进行数据探索。上证综指,全称是上海证券综合指数,是以上证所挂牌上市的全部股票为计算范围,以发行量为权数的加权综合股价指数。这一指数自1991年7月15日起开始实时发布,基日定为1990年12月19日,基日指数定为100点。以上证综指等为核心的上证指数体系,科...

发表了文章 • 2017-04-24 15:12 • 0 条评论

5
推荐
2796
阅读

概率与统计分析学习笔记

概率与统计分析描述性分析用一个数字描述一组数字的特征。用一个数字来归纳一组数字,这个数字称为统计量或统计指标。均值、中位数:描述一组数据的集中趋势方差、标准差、四分位距:描述一组数据的离散趋势相关系数:上面两大类指标都是对一个变量或一组数据的特征描述,如果要描述两个变量或两组数据的相关性,可以使...

发表了文章 • 2017-04-20 16:17 • 0 条评论

2
推荐
2079
阅读

概率与统计分析练习题

1. 学习理解什么是极大似然估计似然函数:设样本 X 有概率函数 f(x,θ),这里 θθ为参数,在参数空间内取值。当固定 x 而把 f(x,θ)f看成 θθ的定义在参数空间内的函数时,它称为似然函数。所以,概率函数和似然函数可以说是一回事,只是看法不同,前者是固定 θ 而看成 x 在样本空间上的函数...

发表了文章 • 2017-04-20 15:47 • 0 条评论

2
推荐
1556
阅读

最优化学习笔记

最优化为什么要做最优化呢?因为在生活中,人们总是希望幸福值或其它达到一个极值,比如做生意时希望成本最小,收入最大,所以在很多商业情境中,都会遇到求极值的情况。函数求根这里「函数的根」也称「方程的根」,或「函数的零点」。先把我们需要的包加载进来。import numpy as np import scipy as sp import scipy.op...

发表了文章 • 2017-04-20 15:37 • 0 条评论

1
推荐
1998
阅读

最优化练习题

给定一个函数 f(x)=x2+3x−10f(x)=x2+3x−10,完成以下题目:理解方程求根中的二分法(Bisection),并使用基本的 numpy 库而非 scipy 库,来实现算法。非线性方程求根注:该部分内容参考的是「中南大学数学科学与计算机技术学院」的课件,介绍了二分法的背景和原理,不感兴趣的可略过。在科学研究和工程设计中, 经常...

发表了文章 • 2017-04-20 15:31 • 0 条评论

2
推荐
1855
阅读

线性模型学习笔记

线性模型主要学习用 statsmodels 模块进行线性回归、逻辑回归和时间序列分析。线性模型基本概念多个因素的定量化计算,是线性模型的最主要用途。由上式,有两个因素 x1x1 和 x2x2 同时影响 y,前面的系数 β1β1 和 β2β2 就是这个因素影响的力度大小,可以认为是方向和强度,负的...

发表了文章 • 2017-04-18 14:35 • 0 条评论

6
推荐
4627
阅读

大作业-电影推荐系统

电影推荐系统推荐系统的文献汗牛充栋,大家对此应该都不陌生。之所以选这个题目一是简单,在一周多晚上十点以后的自由时间里,只有选简单的题目才能完成,即便如此,依然捉襟见肘;二是希望好好研究下数据,一步步推到推荐系统的设计,而不是像以前直奔算法,当然也是时间原因,这里对数据的探索也是远远不够的。本文前...

发表了文章 • 2017-04-18 14:24 • 0 条评论

7
推荐
1792
阅读

线性模型练习题

1. 学习理解如何用最小二乘法的矩阵公式来得到线性回归的解,并使用numpy库来实现该算法。在研究一个问题时,从某种理论或假定出发,得到一个模型。根据这个模型,我们感兴趣的某个量有其理论值,同时可以对这个量进行实际观测,而得出其观测值。由于种种原因,如模型不完全正确以及观测有误差,理论值与观测值会有差距...

发表了文章 • 2017-04-13 10:30 • 0 条评论