数据处理

数据处理

0
推荐
1128
浏览

pandas小册子(二)Dataframe

上一篇讲解了一下,pandas两个主要数据结构之一:用于存放一维数据的Series,本篇介绍一下存放二维数据的Dataframe。Dataframe(简称df)是pandas处理与分析数据的重要数据结构,df像关系型数据库的表,列是属性...

Max_Leo 发表了文章 • 2020-09-13 21:32

1
推荐
1111
浏览

pandas小册子(一)Series

pandas是python做数据处理与分析的常用包,基于NumPy数组构建的,使得python做数据预处理、清洗、分析工作变得更加快捷。pandas有两个主要数据结构:Series和DataFrame,分别对应一维数据表、二维数据表。(当然...

Max_Leo 发表了文章 • 2020-05-25 21:00

4
推荐
1714
浏览

面向集合的思维编写SQL(第九篇 --- “我说的是:苹果柿子李子栗子梨的那个橘子啊”)

max:屏幕前的同学,这个时候还在天善智能看博文,肯定是单身狗吧...猿同学:520是什么鬼,我的世界只有1024...大家好,距离上篇(面向集合的思想编写SQL的第八篇)已经过去N多个月了...一直想给大家呈现一个体系...

Max_Leo 发表了文章 • 2020-05-20 21:50

2
推荐
1638
浏览

面向集合的思维编写SQL(8-行间数据比较)

早些时间写过一篇《Python与SQL对比实现:处理相邻记录的时间差》https://ask.hellobi.com/blog/Matthew112/15643面向的是工作中常见的一个业务场景:对基于时间顺序的业务数据集进行时间序列分析。现在我们有了...

Max_Leo 发表了文章 • 2020-02-11 12:09

0
推荐
1336
浏览

面向集合的思维编写SQL(7-量化万物的谓词-Exists)

1.什么是谓词何为SQL中的谓词,我们常见的比较(=,<,>)、between、like、in、is null、exist等都是谓词;我们可以将它看作一种特殊的函数,函数的返回值都是三值逻辑(true、false、unknow),用来判断“...

Max_Leo 发表了文章 • 2020-02-08 12:38

1
推荐
1700
浏览

面向集合的思维编写SQL(6-关系除法运算之新世界篇)

不知道宅在家里的各位亲有没有追一部《谁是小红袄》的剧...当然这个“追”字有点不严谨...因为剧情的速度都赶不上大家推理的速度...即使你只看了第1集,然后直接跳到第40集,也毫无违和感...那么关系除法又是什么呢...

Max_Leo 发表了文章 • 2020-02-07 13:34

0
推荐
1196
浏览

面向集合的思维编写SQL(5-数据去重)

1.场景与需求如下一张学生信息记录表,记录学生姓名、学生年级:数据中存在重复数据,需要清洗。2.SQL实现:(1)插入自增主键字段:处理结果如下:(2)使用except(3)使用not in

Max_Leo 发表了文章 • 2020-02-06 11:20

1
推荐
1741
浏览

面向集合的思维编写SQL(4-筛选相同行为的用户)

1.场景与需求如下图,id记录用户的编号,name记录用户的行为;当前场景进行用户分类,将相同行为的用户查询出来。2.SQL实现:3.SQL解读:由于SQL的执行优先级: from > where > group by > having >s...

Max_Leo 发表了文章 • 2020-02-05 11:48

1
推荐
1608
浏览

面向集合的思维编写SQL(3-手动实现except与intersect)

 集合论虽然是SQL语言的基础之一,但是在早期的SQL 却不能很好的支持集合运算。受这点影响,各大数据库的支持程度也是参差不齐。SQL Server 从 2005版(关系型数据库已经发展20多年了...)才开始支持 INTERS...

Max_Leo 发表了文章 • 2020-02-04 12:57

1
推荐
1600
浏览

面向集合的思维编写SQL(2-移动累积值)

上一篇初步的介绍了一下面向集合思维编写SQL实现开窗函数的功能;在这里也稍微介绍一下另外一种编写SQL的思维—面向过程,例如Oracle的PL/SQL,作为一种过程化的语言,以赋值、条件分支、循环等作为基本处理单元,...

Max_Leo 发表了文章 • 2020-02-03 11:56

0
推荐
2345
浏览

Apriori算法(Python)

关联规则挖掘是数据挖掘中最活跃的研究方法之一,最早是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则,这些规则刻画了顾客购买行为模式,可以用来指导商家科学地安排进货,库...

Max_Leo 发表了文章 • 2020-02-02 11:23

2
推荐
1993
浏览

面向集合的思维编写SQL(1-手动实现开窗函数)

第一部分:初试集合思维1.场景与需求我们有如下的一列价格数据,现在有这样一个需求,对其实现RANK()排序:2.SQL实现:我先展示代码:查询结果如下:3.SQL解读:现在返回头看代码,括号中的SQL是计算rank排名的核...

Max_Leo 发表了文章 • 2020-02-01 11:19

0
推荐
1128
浏览

报表后端计算的利器

【摘要】应用系统软件项目中有一个普遍现象,就是报表总也做不完。不管是领导需要的宏观数据统计重点的变化,还是业务部门的计算口径的变化,都会造成报表需求的频繁变更。报表项目组就要不断修改现有报表,还会...

润乾软件 发表了文章 • 2019-10-08 17:02

0
推荐
1057
浏览

数据科学家需要了解的 5 种采样方法

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | AI开发者(id:okweiwu)作者 | skura采样问题是数据科学中的常见问题,对此,WalmartLabs 的数据科学家...

数智物语 发表了文章 • 2019-08-09 17:35

0
推荐
993
浏览

数据科学家必看!处理数据的 7 个小技巧

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。原标题 | 7 Tips for Dealing With Small Data作者 | Daniel Rothmann in Towards Data Science译者 | 朱惠94(...

数智物语 发表了文章 • 2019-07-25 16:53

0
推荐
1128
浏览

pandas小册子(二)Dataframe

上一篇讲解了一下,pandas两个主要数据结构之一:用于存放一维数据的Series,本篇介绍一下存放二维数据的Dataframe。Dataframe(简称df)是pandas处理与分析数据的重要数据结构,df像关系型数据库的表,列是属性...

Max_Leo 发表了文章 • 2020-09-13 21:32

1
推荐
1111
浏览

pandas小册子(一)Series

pandas是python做数据处理与分析的常用包,基于NumPy数组构建的,使得python做数据预处理、清洗、分析工作变得更加快捷。pandas有两个主要数据结构:Series和DataFrame,分别对应一维数据表、二维数据表。(当然...

Max_Leo 发表了文章 • 2020-05-25 21:00

4
推荐
1714
浏览

面向集合的思维编写SQL(第九篇 --- “我说的是:苹果柿子李子栗子梨的那个橘子啊”)

max:屏幕前的同学,这个时候还在天善智能看博文,肯定是单身狗吧...猿同学:520是什么鬼,我的世界只有1024...大家好,距离上篇(面向集合的思想编写SQL的第八篇)已经过去N多个月了...一直想给大家呈现一个体系...

Max_Leo 发表了文章 • 2020-05-20 21:50

2
推荐
1638
浏览

面向集合的思维编写SQL(8-行间数据比较)

早些时间写过一篇《Python与SQL对比实现:处理相邻记录的时间差》https://ask.hellobi.com/blog/Matthew112/15643面向的是工作中常见的一个业务场景:对基于时间顺序的业务数据集进行时间序列分析。现在我们有了...

Max_Leo 发表了文章 • 2020-02-11 12:09

0
推荐
1336
浏览

面向集合的思维编写SQL(7-量化万物的谓词-Exists)

1.什么是谓词何为SQL中的谓词,我们常见的比较(=,<,>)、between、like、in、is null、exist等都是谓词;我们可以将它看作一种特殊的函数,函数的返回值都是三值逻辑(true、false、unknow),用来判断“...

Max_Leo 发表了文章 • 2020-02-08 12:38

1
推荐
1700
浏览

面向集合的思维编写SQL(6-关系除法运算之新世界篇)

不知道宅在家里的各位亲有没有追一部《谁是小红袄》的剧...当然这个“追”字有点不严谨...因为剧情的速度都赶不上大家推理的速度...即使你只看了第1集,然后直接跳到第40集,也毫无违和感...那么关系除法又是什么呢...

Max_Leo 发表了文章 • 2020-02-07 13:34

0
推荐
1196
浏览

面向集合的思维编写SQL(5-数据去重)

1.场景与需求如下一张学生信息记录表,记录学生姓名、学生年级:数据中存在重复数据,需要清洗。2.SQL实现:(1)插入自增主键字段:处理结果如下:(2)使用except(3)使用not in

Max_Leo 发表了文章 • 2020-02-06 11:20

1
推荐
1741
浏览

面向集合的思维编写SQL(4-筛选相同行为的用户)

1.场景与需求如下图,id记录用户的编号,name记录用户的行为;当前场景进行用户分类,将相同行为的用户查询出来。2.SQL实现:3.SQL解读:由于SQL的执行优先级: from > where > group by > having >s...

Max_Leo 发表了文章 • 2020-02-05 11:48

1
推荐
1608
浏览

面向集合的思维编写SQL(3-手动实现except与intersect)

 集合论虽然是SQL语言的基础之一,但是在早期的SQL 却不能很好的支持集合运算。受这点影响,各大数据库的支持程度也是参差不齐。SQL Server 从 2005版(关系型数据库已经发展20多年了...)才开始支持 INTERS...

Max_Leo 发表了文章 • 2020-02-04 12:57

1
推荐
1600
浏览

面向集合的思维编写SQL(2-移动累积值)

上一篇初步的介绍了一下面向集合思维编写SQL实现开窗函数的功能;在这里也稍微介绍一下另外一种编写SQL的思维—面向过程,例如Oracle的PL/SQL,作为一种过程化的语言,以赋值、条件分支、循环等作为基本处理单元,...

Max_Leo 发表了文章 • 2020-02-03 11:56

0
推荐
2345
浏览

Apriori算法(Python)

关联规则挖掘是数据挖掘中最活跃的研究方法之一,最早是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则,这些规则刻画了顾客购买行为模式,可以用来指导商家科学地安排进货,库...

Max_Leo 发表了文章 • 2020-02-02 11:23

2
推荐
1993
浏览

面向集合的思维编写SQL(1-手动实现开窗函数)

第一部分:初试集合思维1.场景与需求我们有如下的一列价格数据,现在有这样一个需求,对其实现RANK()排序:2.SQL实现:我先展示代码:查询结果如下:3.SQL解读:现在返回头看代码,括号中的SQL是计算rank排名的核...

Max_Leo 发表了文章 • 2020-02-01 11:19

0
推荐
1128
浏览

报表后端计算的利器

【摘要】应用系统软件项目中有一个普遍现象,就是报表总也做不完。不管是领导需要的宏观数据统计重点的变化,还是业务部门的计算口径的变化,都会造成报表需求的频繁变更。报表项目组就要不断修改现有报表,还会...

润乾软件 发表了文章 • 2019-10-08 17:02

0
推荐
1057
浏览

数据科学家需要了解的 5 种采样方法

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | AI开发者(id:okweiwu)作者 | skura采样问题是数据科学中的常见问题,对此,WalmartLabs 的数据科学家...

数智物语 发表了文章 • 2019-08-09 17:35

0
推荐
993
浏览

数据科学家必看!处理数据的 7 个小技巧

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。原标题 | 7 Tips for Dealing With Small Data作者 | Daniel Rothmann in Towards Data Science译者 | 朱惠94(...

数智物语 发表了文章 • 2019-07-25 16:53