2、Python 文章分类张俊红的博客专栏 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

0

推荐

1528

阅读

爬了菊姐的两万条评论，竟发现菊粉都是这样的人！

前言最近一段时间，创造101很火，这个火是可以理解的，毕竟中国首部女团节目。但是还有一个人不知道为啥突然也火了，那就是我们的菊姐。关于菊姐为什么火，网上已经有很多发文了，这里就不再赘述了。今天我们主要来做一份菊粉陶渊明的用户画像，看看那些pick菊姐的人都有什么特质？先来看看百度指数，通过百度指数我们看...

发表了文章 • 2018-06-26 10:25 • 0 条评论

0

推荐

1603

阅读

信用卡“坏账”客户分析（一）

总第92篇01|背景：随着人们的消费观念的升级，所谓的“花明天的钱，圆今天的梦”。银行以及私营企业推出了各种各样的消费金融服务，具有代表性的是各大银行的信用卡，支付宝的花呗、京东白条，还有一些专门针对针对学生群体的平台，比如趣分期哈、分期乐之类的，把这些统称为信用卡用户。只要涉及到金融借贷的，就有可能有...

发表了文章 • 2018-01-15 11:03 • 0 条评论

1

推荐

1737

阅读

时间序列数据（上）

总第92篇01|时间序列定义：时间序列是按照一定的时间间隔排列的一组数据，其时间间隔可以是任意的时间单位，如小时、日、周月等。比如，不同时间段某产品的用户数量，以及某个在网站的用户行为，这些数据形成了以一定时间间隔的数据。人们希望通过对这些时间序列的分析，从中发现和揭示现象发展变化的规律，尽可能多地从...

发表了文章 • 2018-01-11 10:43 • 0 条评论

2

推荐

1810

阅读

最近租房有点烦！技术人如何用Python找到称心如意的“小窝”？

11 月 18 日，北京西红门镇新建二村“聚福缘公寓”突发火灾。火灾后，随之而来的是一场全北京市的“安全隐患大排查大清理大整治”风暴。聚集着几万外来务工人员的新建村在几天之内被清理一空。很多人正面临着要重新找房子或是离开北京的问题。违建的公寓正在消失，危房出租正在被拆，这些被“风暴”涉及到的外来上班族怎么办？...

发表了文章 • 2017-12-12 15:45 • 0 条评论

0

推荐

1552

阅读

python数据科学-数据预处理

总第88篇数据预处理是我们在做机器学习之前必经的一个过程，在机器学习中常见的数据预处理包括缺失值处理，缩放数据以及对数据进行标准化处理这三个过程。01|缺失值处理：缺失值处理是我们在做数据分析/机器学习过程中经常会遇到的问题，我们需要一种处理不完整数据的策略/方法。对缺失值处理有两种方法，一种是直接对某...

发表了文章 • 2017-12-06 15:31 • 0 条评论

0

推荐

1496

阅读

python数据科学-多变量数据分析

总第87篇01|写在前面：在前面我们研究了单列(变量)数据情况，现实中的案例大多都是多列(变量)的，即影响一件事情的因素有多个，我们除了要看单列数据以外还需要看看这不同列之间是否存在某些联系。常见的关系有四种：无关联、强关联、简单关联和多元(非简单)关联。接下来具体看看具体如何借助可视化对多变量数据进行分析...

发表了文章 • 2017-12-06 15:21 • 0 条评论

2

推荐

1598

阅读

python数据科学-单变量数据分析

总第85篇01|背景：我们在做机器学习之前，需要自己先对数据进行深入的了解（这些数据是什么类型，总共有多少数据，有没有缺失值，均值是多少之类的），只有自己对数据足够了解了，才能够更好地利用机器学习。我们把在正式开始机器学习之前对数据的了解过程成为探索性分析 , 简称 EDA。02|单变量数据分析：单边量数据是指...

发表了文章 • 2017-11-21 11:37 • 0 条评论

1

推荐

1692

阅读

python在租房过程中的应用

总第84篇01|背景介绍：租房是再普遍不过的一件事情了，我们在租房过程中常考量的两个因素是出租房离公司的远近以及价格，而我们一般都会去链家上看相应的信息，但是链家网只有价格没有距离，对于我这种对帝都不是很熟的人，对各个区域的位置是一脸懵逼，所以我就想着能不能自己计算距离呢，后来查了查还真可以。具体做法...

发表了文章 • 2017-11-07 14:47 • 0 条评论

1

推荐

1629

阅读

爬虫进阶（四）

总第71篇01|背景：前段时间给人填报志愿，无意间发现这个网站的：http://gkcx.eol.cn/soudaxue/queryschoolgufen.html，这个网站整体不错，会根据生源地、高考分数、和文理科来推荐一些可以报考的学校，但是使用不是很方便，不可以设置多个条件（比如我想把东三省的学校挑出来），只能一个省份一个去点击。再比如我想要...

发表了文章 • 2017-07-05 12:56 • 0 条评论

1

推荐

1924

阅读

爬虫进阶（三）

总第69篇01|背景介绍：我们前面的几篇推文都是针对网页版的内容进行抓取，但是有的时候当我们想要的数据没有网页版只有APP端时，这个时候该怎么办呢？是人工去摘抄我们想要的数据吗?我们肯定不想这么做，我们想想怎样网页版和APP版有什么不同，是什么原因导致我们不能够按以往的方式来正常抓取数据。要想找到原因，我们...

发表了文章 • 2017-06-07 16:08 • 0 条评论

1

推荐

1730

阅读

爬虫进阶（二）

总第66篇在前面的几篇推文中我们分享了最基础的爬虫入门，以及基于AJAX的爬虫入门，这篇我们分享关于如何利用selenium对目标网页进行数据爬取的。01|背景介绍：学爬虫怎么能不买一本Python爬虫书来看呢，有人推荐说《用Python写网络爬虫》这本书不错，所以决定入手一本看看，但是淘宝上卖家比较多，我该选哪家呢，我想选...

发表了文章 • 2017-04-27 08:44 • 0 条评论

1

推荐

1674

阅读

爬虫进阶（一）

总第65篇往期相关推送：零基础学习爬虫并实战房天下数据爬取及简单数据分析01|背景介绍：前两篇推文里面涉及的目标爬取对象都比较简单，要么是普通的静态网页图片，要么是有规律的url参数，通过遍历参数就可以爬取不同的页面内容。还有一种目标爬取对象不属于上面任何一种。我们要爬取每个图集里面的每张图片，就是下图...

发表了文章 • 2017-04-24 16:56 • 0 条评论

1

推荐

1828

阅读

零基础学习爬虫并实战

总第63篇本篇主要从爬虫是什么、爬虫的一般流程、爬虫各个流程的实现方法、爬虫实例四个方面分享零基础了解爬虫，并进行简单的实战。在阅读下面之前，我们需要对网页有个基本的了解，知道什么是标签，什么是属性，以及知道标题是放在哪，内容是放在哪，这些关于网站的基础知识。可查看我前几篇关于网页基础知识的推文：...

发表了文章 • 2017-04-19 14:43 • 0 条评论

0

推荐

1735

阅读

网页的行为

01|JavaScript是什么：JavaScript 是一种轻量级的编程语言。JavaScript 是可插入 HTML 页面的编程代码。JavaScript 插入 HTML 页面后，可由所有的现代浏览器执行，以此来增加HTML页面的交互性。02|JavaScript怎么用：1、HTML 中的脚本放在<script>和</script>标签之间。脚本可被放置在 HTML 页面的<body&...

发表了文章 • 2017-04-17 10:48 • 0 条评论

0

推荐

1156

阅读

网页的修饰

01|什么是CSS：CSS 指层叠样式表 (Cascading Style Sheets)样式是用来定义如何显示 HTML 元素02|CSS怎么用：CSS怎么用，也就是CSS的语法。CSS 规则由两个主要的部分构成：选择器，以及一条或多条声明。选择器通常是您需要改变样式的 HTML 元素。每条声明由一个属性和一个值组成。属性（property）是希望设置的样式属性（...

发表了文章 • 2017-04-17 10:45 • 0 条评论