0
推荐
1362
阅读
机器学习札记4—《统计学习方法》-第一章(3)
生成模型与判别模型监督学习的任务就是学习一个模型,这个 模型一般是决策函数:或者条件概率分布:分类监督学习的方法分为两类:生成方法判别方法生成方法生成方法由数据学习联合概率分布,然后求出条件概率分布作为预测模型,生成模型为:典型算法:朴素贝叶斯法和隐马尔可夫模型特点:更够还原出联合概率分布样本容量...
0
推荐
1180
阅读
机器学习札记3——《统计学习方法》第一章(2)
模型评估和选择训练误差和测试误差假设学习模型是,训练误差是模型关于训练数据集的平均损失:其中N是训练样本的容量训练误差是关于数据集的平均损失:其中当损失函数是0-1损失时,测试误差就变成了常见的测试数据集上的误差率error rateI是指示函数,即时为1,否则为0;相应的测试集上的准确率为明显的:总结测试误差反...
0
推荐
988
阅读
机器学习札记2——《统计学习方法》第一章(1)
统计学习概述统计学习的特点统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。统计学习也称之为统计机器学习统计学习的主要特点是:统计学习以计算机及网络为平台,是建立在计算机及网络之上的统计学习以数据为研究对象,是数据驱动的学科统计学习的目的是对数据进行预测和分析...
0
推荐
893
阅读
Git札记1——10分钟入门Git
之前看过很多的资料,讲了很多的原理和操作,一直没有把Git弄明白,今天在同事的讲解下真的是豁然开朗,瞬间学会了Git的使用。做个记录,供大家学习使用。不讲解任何原理,直接上操作过程。下载和安装Git不管是Windows还是iOS亦或是笔者最喜欢的ubuntu,怎么安装Git,请自行百度。本教程中以Windows为例讲解,因为很多人...
0
推荐
1135
阅读
MySQL札记16_MySQL事务(面试必备)
什么是事务概念事务Trunsaction,一个最小的、不可再分的工作单元,通常一个事务对应一个完整的业务。InnoDB引擎是支持事务的,MyISAM不支持事务。在MySQL中,一条SQL语句就是一个事务。一个完整的业务需要大量的DML(insert、update、delete)语句来共同完成。只有DML数据操作语句才有事务。事务保证一组SQL语句要么全...
0
推荐
1000
阅读
pandas札记12_数据聚合和分组运算
Pandas中提供了灵活的分组功能,通过groupby实现,对数据进行切片、切块、合并等操作计算分组摘要:计数、平均值、标准差,用户自定义函数组内变换或者其他运算,规格化、线性回归、排名或选取子集等计算透视表、交叉表等执行分位数和其他统计分组分析groupby机制分组运算术语:拆分---应用---合并拆分:根据提供的键进...
0
推荐
1123
阅读
机器学习札记1-KNN算法
KNN导读k-近邻算法(k-nearest neighbor, k-NN)是一种基本分类和回归的算法。k近邻算法中的输入为实例的特征向量,输出为实例的类别,类别可以有多类。算法主要思想:给定一个训练集的数据,实例的类别已定对于新的实例,根据k个最近邻的训练实例的类别,经投票表决等方式进行预测算法不具有显式的学习过程,实际上利用...
0
推荐
1237
阅读
MySQL札记15_int、char、varchar
intint类型有4个字节,一个字节的8位,int有32位,最多存储10位数字;如果超过10位,以最大的为准有符号:2147483647无符号:4294967295create table user (number int(11);
关于zerofillalter table user modify number int(6) zerofill unsigned;
当建立的数据字段中加入了zerofill:不足6位:前面补零超过6位:直接输...
0
推荐
1432
阅读
MySQL札记14_数据库中的字符集
在MySQL数据库中默认支持的utf8字符集,一般不要改动字符集,使用utf8绝对没有问题的!utf8:万国码gbk:汉字编码字符集show character set; # 查看字符集
show variables like "%char%"; # 查看字符变量
查看和指定建库的字符集show create database peter; # 查看
create database test character set utf8; 建...
0
推荐
1626
阅读
Matplotlib札记6_数据可视化
本篇札记主要是整理于《利用Python进行数据分析-第二版》的第九章,本章中讲解了可视化的工具:matplotlib和seaborn。导入库import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline # 一定要导入进来,否则无法出图
简单图形data = np.arange(10)
plt.p...
0
推荐
1050
阅读
pandas札记11_数据规整
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
层次化索引hierarchical indexing数据分散在不同的文件或者数据库中层次化索引在⼀个轴上拥有多个(两个以上)索引级别低维度形式处理高维度数据# 创建S:索引是一个数组组成的列表
data = pd.Series(np.random.randn(9),
ind...
0
推荐
998
阅读
MySQL札记12_基础知识复习
本篇札记中主要是对数据库中的基本概念进行了梳理,没有解释和具体的定义,单纯的整理,供参考学习图片发自简书App图片发自简书App图片发自简书App图片发自简书App图片发自简书App
0
推荐
1329
阅读
MySQL札记13_数据库引擎Engine
在MySQL数据库中常用的引擎有两种:MyISAM和InnoDB。其他的还有BLOCKHOLE、CSV、MEMORY、ArchiveMySQL数据库引擎mysql数据库引擎常用面试总结什么是存储引擎MySQL中的数据用各种不同的技术存储在文件(或者内存)中。这些技术中的每一种技术都使用不同的·存储机制、索引技巧、锁定水平·并且最终提供广泛的\、不同的功能...
0
推荐
990
阅读
《Python与机器学习实战》——第一章
第一章主要是个导论,在里面介绍了个简单的利用机器学习预测房价的栗子:数据预处理导入相关的模块和包,主要是numpy、pandas和matplotlib.pyplot。获取到两列关键的数据:size和price将size标准化处理标准化处理数学公式:做出size和price的散点图# 导入相关的库
import numpy as np
import pandas as pd
import matplo...
0
推荐
1245
阅读
MySQL札记11_《SQL必知必会》1-6章总结
准备花上3天的时间把《SQL必知必会》这本书过一遍,掌握数据库方面的基础知识。这是第一天