数据采集

数据采集

0
推荐
99
浏览

一篇文章教会你利用Python网络爬虫成为斗图达人

【一、项目背景】你是否在寻找可以与高手斗图的应用? 你是否在寻找可以自制表情的应用?你是否在寻找最全、最爆笑的表情库?斗图网是一个收集了成千上万的撕逼斗图表情包,在这里你可以快速找到想要的表情, 更好...

dcpeng 发表了文章 • 2020-09-25 16:48

0
推荐
158
浏览

手把手教你不用客户端也能轻松下载音乐视频

/1 前言/今天要跟大家分享一些非常实用的技巧,不涉及到代码。当然你若是想把这些实现的步骤简化的话,用代码当然是最好的了。今天的目的很简单,就是在不用安装客户端的情况下把酷我音乐里的音乐下载下来。/2 涉...

dcpeng 发表了文章 • 2020-09-02 07:56

0
推荐
365
浏览

用php模拟登陆报400错,是什么原因

各位达人:我用php爬虫模拟登陆,在不加headers的时候报405错,加上headers报400错,能否指点下解决思路,万分感谢!!用的代码如下:    <?php      &nbs...

xiaotaomi 发表了文章 • 2019-09-02 17:42

1
推荐
1595
浏览

如何用Python网络爬虫爬取网易云音乐歌曲

今天小编带大家一起来利用Python爬取网易云音乐,分分钟将网站上的音乐down到本地。跟着小编运行过代码的筒子们将网易云歌词抓取下来已经不再话下了,在抓取歌词的时候在函数中传入了歌手ID和歌曲名两个参数,其...

dcpeng 发表了文章 • 2018-08-27 21:43

0
推荐
2668
浏览

Python Seaborn (Ⅲ) 分布数据集的可视化

本文作者 未禾,首发于作者知乎,https://zhuanlan.zhihu.com/p/27570774,已获作者授权原创形式发布,欢迎点击【阅读原文】关注支持!第三章 分布数据集的可视化在处理一组数据时,通常首先要做的是了解变量是如...

EasyCharts 发表了文章 • 2017-07-05 14:41

0
推荐
1180
浏览

Python爬虫实战入门三:简单的HTML解析—爬取腾讯新闻

   上一章咱们使用Python实现了一个简单的HTTP请求,瞧着简单,爬虫就是模拟人打开一个个URL浏览一个个网页来爬取数据的,一个成功的HTTP请求,就是一个爬虫的基础。接下来,咱们以一个实际的例子:爬...

州的先生 发表了文章 • 2017-04-26 17:00

0
推荐
1148
浏览

Python爬虫实战入门二:从一个简单的HTTP请求开始

无论我们通过浏览器打开网站、访问网页,还是通过脚本对URL网址进行访问,本质上都是对HTTP服务器的请求,浏览器上所呈现的、控制台所显示的都是HTTP服务器对我们请求的响应。以打开我的个人网站为例,我们在地址...

州的先生 发表了文章 • 2017-04-26 16:57

1
推荐
1568
浏览

requests‐bs4路线实现中国大学排名定向爬虫

预备阅读:Python中Requests库的用法   Python中Beautiful Soup的用法 前言最近学习了北京理工大学崇天老师的Python爬虫课程,老师讲了一个实现“中国大学排名定向爬虫”的实例,这里想自己实现一下,并...

Airy 发表了文章 • 2017-03-15 10:47

3
推荐
1495
浏览

数据采集中的安全与隐私

本文作者为神策数据创始人&CTO-曹犟,更多交流欢迎访问神策数据官网。1. 数据采集面临的安全与隐私挑战不管是第三方分析工具,还是企业的第一方分析系统,在分析用户行为时,通常都会选择在客户端(一般是安卓...

SensorsData 发表了文章 • 2016-06-21 15:28

0
投票
1
回答
939
浏览
0
投票
1
回答
1114
浏览
0
投票
1
已解决
1154
浏览
条新动态, 点击查看
天善小编

天善小编 回答了问题 • 2015-11-22 11:05 • 1 个回复 不感兴趣

数据采集的工作能否简化?

赞同来自:

第二个寒字: 会员购买金额、购买频次、退货频次、退货金额、购物品牌数、退货品牌数与最近购物时间,您说的这些频次,金额,这些数据收集的工作量会很大,您们是如何简化这部分的工作,为后续的工作通用化?
第二个寒字: 频次、金额,也有时间范围,比如一个月,三个月... 显示全部 »
第二个寒字: 会员购买金额、购买频次、退货频次、退货金额、购物品牌数、退货品牌数与最近购物时间,您说的这些频次,金额,这些数据收集的工作量会很大,您们是如何简化这部分的工作,为后续的工作通用化?
第二个寒字: 频次、金额,也有时间范围,比如一个月,三个月,十天,都有可能对结果产生差异,找寻特征是如果每个都考虑,将会是一个浩大的工程,您们是如何对这部分的处理进行优化的?
面包君: @ 第二个寒字 这些标签都需要建立用户标签库、行为基因库的。这些都是常用的特征指标。

10023
汪尚: 没有办法简化,我们其实针对百货会员派生了上百的字段,最终只是从这上百字段中找出了这几个重要的做的分析。
 
吴君-51随意行-客流专家: 目前团体预定火车票,一般走窗口,手续比较麻烦。

Xiedp: 而且你以第三方的身份去,办理更加麻烦。

吴君-51随意行-客流专家: 所以12306各种限制,才导致去携、同程等每日10万到几十万火车票的量,否则都用1203... 显示全部 »
吴君-51随意行-客流专家: 目前团体预定火车票,一般走窗口,手续比较麻烦。

Xiedp: 而且你以第三方的身份去,办理更加麻烦。

吴君-51随意行-客流专家: 所以12306各种限制,才导致去携、同程等每日10万到几十万火车票的量,否则都用12036不就得了?

祝青瑞: 感觉做服务,就应站在消费者角度,服务质量很重要,希望51随意行能是未来一个棒棒的选择。

Xiedp: 携程和同程每天能销售那么多火车票吗

吴君-51随意行-客流专家: 谢谢,现在产品离成熟还早,未来的路很长,但是我们当年在2012年,去哪儿已经足够大的时候,还不是需要摸索出甩开淘宝,追上携程的道路?所以不要停歇,那就对了
0
投票
1
回答
939
浏览
0
投票
1
回答
1114
浏览
0
投票
1
已解决
1154
浏览
0
推荐
99
浏览

一篇文章教会你利用Python网络爬虫成为斗图达人

【一、项目背景】你是否在寻找可以与高手斗图的应用? 你是否在寻找可以自制表情的应用?你是否在寻找最全、最爆笑的表情库?斗图网是一个收集了成千上万的撕逼斗图表情包,在这里你可以快速找到想要的表情, 更好...

dcpeng 发表了文章 • 2020-09-25 16:48

0
推荐
158
浏览

手把手教你不用客户端也能轻松下载音乐视频

/1 前言/今天要跟大家分享一些非常实用的技巧,不涉及到代码。当然你若是想把这些实现的步骤简化的话,用代码当然是最好的了。今天的目的很简单,就是在不用安装客户端的情况下把酷我音乐里的音乐下载下来。/2 涉...

dcpeng 发表了文章 • 2020-09-02 07:56

0
推荐
365
浏览

用php模拟登陆报400错,是什么原因

各位达人:我用php爬虫模拟登陆,在不加headers的时候报405错,加上headers报400错,能否指点下解决思路,万分感谢!!用的代码如下:    <?php      &nbs...

xiaotaomi 发表了文章 • 2019-09-02 17:42

1
推荐
1595
浏览

如何用Python网络爬虫爬取网易云音乐歌曲

今天小编带大家一起来利用Python爬取网易云音乐,分分钟将网站上的音乐down到本地。跟着小编运行过代码的筒子们将网易云歌词抓取下来已经不再话下了,在抓取歌词的时候在函数中传入了歌手ID和歌曲名两个参数,其...

dcpeng 发表了文章 • 2018-08-27 21:43

0
推荐
2668
浏览

Python Seaborn (Ⅲ) 分布数据集的可视化

本文作者 未禾,首发于作者知乎,https://zhuanlan.zhihu.com/p/27570774,已获作者授权原创形式发布,欢迎点击【阅读原文】关注支持!第三章 分布数据集的可视化在处理一组数据时,通常首先要做的是了解变量是如...

EasyCharts 发表了文章 • 2017-07-05 14:41

0
推荐
1180
浏览

Python爬虫实战入门三:简单的HTML解析—爬取腾讯新闻

   上一章咱们使用Python实现了一个简单的HTTP请求,瞧着简单,爬虫就是模拟人打开一个个URL浏览一个个网页来爬取数据的,一个成功的HTTP请求,就是一个爬虫的基础。接下来,咱们以一个实际的例子:爬...

州的先生 发表了文章 • 2017-04-26 17:00

0
推荐
1148
浏览

Python爬虫实战入门二:从一个简单的HTTP请求开始

无论我们通过浏览器打开网站、访问网页,还是通过脚本对URL网址进行访问,本质上都是对HTTP服务器的请求,浏览器上所呈现的、控制台所显示的都是HTTP服务器对我们请求的响应。以打开我的个人网站为例,我们在地址...

州的先生 发表了文章 • 2017-04-26 16:57

1
推荐
1568
浏览

requests‐bs4路线实现中国大学排名定向爬虫

预备阅读:Python中Requests库的用法   Python中Beautiful Soup的用法 前言最近学习了北京理工大学崇天老师的Python爬虫课程,老师讲了一个实现“中国大学排名定向爬虫”的实例,这里想自己实现一下,并...

Airy 发表了文章 • 2017-03-15 10:47

3
推荐
1495
浏览

数据采集中的安全与隐私

本文作者为神策数据创始人&CTO-曹犟,更多交流欢迎访问神策数据官网。1. 数据采集面临的安全与隐私挑战不管是第三方分析工具,还是企业的第一方分析系统,在分析用户行为时,通常都会选择在客户端(一般是安卓...

SensorsData 发表了文章 • 2016-06-21 15:28