Python爬虫实战

有趣的爬虫实战分析及源码分享

4
推荐
4762
阅读

用户画像解决方案课程上线啦

规划了许久的用户画像解决方案课程终于上线啦。这套课程全部从实际工程开发、应用的角度出发,可操作性、落地性强。内容主要涵盖:用户标签指标体系、数据分析、搭建开发环境、表结构设计、数据开发和监控、ETL、kafka和hbase等常用大数据组件介绍、画像的产品形态、打通数据服务层、以及如何应用用户标签和效果评估下面...

发表了文章 • 2018-09-29 07:54 • 0 条评论

3
推荐
5235
阅读

用户活跃/用户价值度分析

用户活跃、用户价制度分析的在数据分析师的日常工作中经常会碰到,如何根据公司的业务情况对本公司的用户做活跃和价制度的划分是一种常规化的分析工作。在用户生命周期中,对每个用户进行群体划分,有针对性地做分群分层运营,可以更高地提高营收转化。(用户生命周期指用户从注册账户建立起业务关系到完全终止关系的全...

发表了文章 • 2018-07-11 20:20 • 4 条评论

0
推荐
2012
阅读

渠道流量异常情况分析

流量部门目前对APP线上推广需要支付较多的渠道推广费用,但不同渠道带来的用户质量、活跃度、消费能力参差不齐为了支持流量部门高效推广,减少对垃圾渠道的投放费用。需要对部分投放费用较高,但是营收、活跃度转化较低的渠道需要重点分析对于渠道流量进行分析的几个关键指标:根据AARRR模型,从获取用户到用户付费环节...

发表了文章 • 2018-07-11 20:19 • 0 条评论

0
推荐
1912
阅读

自动发送邮件脚本

这篇博客把每天自动发送邮件的脚本讲一讲吧,虽然很基础,好像没什么可以说的 ...在日常运营工作中,数据提取人员面对众多业务方的数据需求,往往应接不暇。他们需要一套自动化的程序去帮助他们完成一些周期性和重复性较强的工作。为了减少重复性工作,数据提取人员可以使用Python自动化脚本跑定时任务。将写好的HQL语句...

发表了文章 • 2018-07-11 20:18 • 0 条评论

0
推荐
1997
阅读

产品流量分析

年底要接的数据需求好多,博客好久没更新了。这次和大家分享一下最近对流量分析的一些理解。流量是产品获得用户的第一步,没有流量就没有转化与营收。对于流量的分析在产品日常运营效果监控中有着非常重要意义。下面我们就流量的来源与流向分析中需要关注哪些指标,展开叙述。这里首先放一张对流量来源和去向的图:从流...

发表了文章 • 2018-07-11 20:16 • 1 条评论

1
推荐
3538
阅读

用户画像—Airflow作业调度(ETL)

最近在弄画像标签每天ETL的调度事情,这篇文章分享一下一个开源的ETL工具Airflow。一、基础概念Airflow是Airbnb内部发起并开源的一个ETL管理平台,使用Python编写实现的任务管理、调度、监控工作流平台。这是其官方文档地址:Apache Airflow (incubating) Documentation ,关于airflow产品的使用,里面有详细的介绍...

发表了文章 • 2018-07-11 20:12 • 0 条评论

1
推荐
3462
阅读

用户画像—数据指标与表结构设计

本段文章介绍一下画像中需要开发的数据指标与开发过程中表结构的设计。首先介绍画像开发的数据指标,画像开发过程中通用类的指标体系包括用户属性类、用户行为标签类、用户活跃时间段类、用户消费能力类、用户偏好类等数据指标体系用户属性指标用户属性指标根据业务数据来源,尽可能全面地描述用户基础属性,这些基础属...

发表了文章 • 2018-07-11 20:11 • 3 条评论

0
推荐
4947
阅读

用户画像—计算用户偏好标签

用户画像中用户行为标签是很重要的一块内容,这篇详细讲讲如何打行为标签。数据仓库用户画像的应用流程从原始的数据输入到模型应用可分为5块(图1),包括将操作型环境数据经ETL后集中存储在数据仓库,之后经过对数据的建模、挖掘、分析建立用户画像模型,最终将建好用户画像的数据接口调用到BI报表、经营分析、精准营销...

发表了文章 • 2018-07-11 20:09 • 1 条评论

0
推荐
4103
阅读

用户画像—打用户行为标签

用户画像中用户行为标签是很重要的一块内容,这篇详细讲讲如何打行为标签。数据仓库用户画像的应用流程从原始的数据输入到模型应用可分为5块(图1),包括将操作型环境数据经ETL后集中存储在数据仓库,之后经过对数据的建模、挖掘、分析建立用户画像模型,最终将建好用户画像的数据接口调用到BI报表、经营分析、精准营销...

发表了文章 • 2018-07-11 20:06 • 4 条评论

0
推荐
2896
阅读

用户画像—数据质量管理

大家好,今天和大家分享一下用户画像数据质量管理这块的内容。数据质量管理这项工作的重要性不言而喻,所谓“garbage in,garbage out”,基础数据的质量性如果无法得到良好保障,后续的推荐、数据分析工作将会变得徒劳。背景在建好用户画像模型后,该数据模型成为了一个个落在数据仓库的表,数据仓库的开发人员通过通过调...

发表了文章 • 2018-07-11 19:59 • 0 条评论

6
推荐
2365
阅读

再见2017,欢迎2018

2017年总结        2017年是个值得纪念的一年,在2018年春节来临之前回顾2017年走过的路程,不知不觉已从起点走出了好远,需要做一次回顾与总结。       工作        转眼毕业2年多了,毕业后和大部分的同学一样不可避免地经历过迷茫,不知何去何从。从管...

发表了文章 • 2018-01-25 23:04 • 6 条评论

1
推荐
1579
阅读

如何在Windows下安装Scrapy

有读者问到了如何在windows下安装scrapy。由于scrapy依赖非常多的第三方库,所以这篇介绍windows下安装scrapy的步骤。目前scrapy在windows下已支持Python3.(1)安装Visual C++ Build Tools由于Scrapy的依赖库文件中,pywin32和Twisted的底层是基于C语言开发的,因此需要安装C语言的编译环境。对于Python3.5来说,可以通...

发表了文章 • 2017-09-08 13:34 • 0 条评论

2
推荐
2117
阅读

在Python应用中使用MongoDB

Python是开发社区中用于许多不同类型应用的强大编程语言。很多人都知道它是可以处理几乎任何任务的灵活语言。因此,在Python应用中需要一个什么样的与语言本身一样灵活的数据库呢?那就是NoSQL,比如MongoDB。英文原文:https://realpython.com/blog/python/introduction-to-mongodb-and-python  在这篇文章中,将向您...

发表了文章 • 2017-09-08 11:51 • 0 条评论

3
推荐
1996
阅读

Python爬虫简易代理池

爬虫代理IP池在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在公司做的东西不能开源出来。不过呢,闲暇时间手痒,所以就想利用一些免费的资源搞一个简单的代理池服务。1、问题代理IP从何而来?  刚...

发表了文章 • 2017-09-08 11:32 • 0 条评论

8
推荐
4965
阅读

用户画像—标签聚类

大家好~ :)这次想继续和大家聊聊用户画像。用户画像是个体系性比较强的内容模块,分一两次博客也写不完,我争取分多次博客把各个模块都搭建起来。上次把用户画像方面的内容开了一个头,讲了关于标签权重的计算方法,这次就聊聊标签聚类的方法。其实聚类不限于方法和形式,只要能将同类物品 / 内容进行准确聚类的,都是...

发表了文章 • 2017-09-06 14:40 • 3 条评论