作者介绍:宋天龙(TonySong),资深大数据技术专家,历任软通动力集团大数据研究院数据总监、Webtrekk(德国最大的网站数据分析服务提供商)中国区技术和咨询负责人、国美在线大数据中心经理。
本文来自《Python数据分析与数据化运营》配套书籍第6章节内容,机械工业出版社华章授权发布,未经允许,禁止转载!
此书包含 50个数据工作流知识点,14个数据分析和挖掘主题,8个综合性运营案例。涵盖了会员、商品、流量、内容4大数据化运营主题,360°把脉运营问题并贴合数据场景落地。
书籍购买链接:https://item.jd.com/12254905.html
课程学习链接:网站数据分析场景和方法——效果预测、结论定义、数据探究和业务执行https://edu.hellobi.com/course/221
往期回顾:Python数据分析与数据化运营:会员数据化运营1-概述与关键指标
Python数据分析与数据化运营:会员数据化运营2-应用场景与分析模型
Python数据分析与数据化运营:会员数据化运营3-分析小技巧
Python数据分析与数据化运营:会员数据化运营4-“大实话”
Python数据分析与数据化运营:会员数据化运营5-案例:基于RFM的用户价值度分析
Python数据分析与数据化运营:商品数据化运营1-概述与关键指标
Python数据分析与数据化运营:商品数据化运营2-应用场景与分析模型
Python数据分析与数据化运营:商品数据化运营3-分析小技巧
Python数据分析与数据化运营:商品数据化运营4-“大实话”
Python数据分析与数据化运营:商品数据化运营5-案例:基于超参数优化的Gradient Boosting的销售预测
Python数据分析与数据化运营:商品数据化运营6-案例:基于LogisticRegression、RandomForest、Bagging概率投票组合模型的异常检测
内容小结:商品数据化运营几乎是每个公司做精细化运营、销售提升的重要支撑,本章几乎每个内容都能在实际运营中找到对应落地点,它们不仅可以用于商品运营分析,更可以用于其他商品自动化运营的场景,例如个性化推荐、智能促销等。
重点知识:本章需要读者重点掌握的知识点是商品数据化运营分析的模型、小技巧以及最后两个案例中的效果优化和提升方法,尤其是:
- 使用lambda配合map实现特定功能
- 使用SMOTE做样本均衡处理
- 新产品市场定位模型
- 商品规划的最优组合
- 基于GridSearchCV的超参数的模型优化方法
- 基于多种模型的投票组合模型的构建
外部参考:限于篇幅,本书未能言尽的内容包括:
- 商品数据化运营涉及到很多有关运营方面的话题,如何将运营与数据更好的结合,可以参考《数据化管理:洞悉零售及电子商务运营》,这是一本简明易懂的将数据与运营场景结合的书籍,其中的经验不可多得。
- 市场分析不只是服务于商品运营,更能从整个企业宏观层面做企业级预测支持。在市场分析领域,麦肯锡处于企业咨询服务和市场服务的领先地位,有兴趣的读者可以看下《麦肯锡问题分析与解决技巧》。这不是一本讲技术的书籍,但它能从思路、方法、步骤等方面帮你建立良好的思维习惯,从“术”和“法”走向更高的“道”。
- 线性规划方法是非常有效的决策方法,与之对应的是非线性规划方法,有关这两种方法的更多内容,请读者参考《线性和非线性规划(第3版)》,这是一本研究运筹学的经典教材。
- 在6.8案例的最后提到了将Python对象持久化和增量更新的问题。有关Python对象的持久化,请查阅资历了解Python的内置标准库pickle和cpickle,尤其是大型程序环境中后者用的比较多;对于Python数据挖掘和机器学习的增量更新,sklearn中已经提供了不少算法,如表6-13,有兴趣的读者可以做进一步了解和学习。
表6-13 sklearn支持增量学习的算法
应用实践:虽然本书尽量在各个知识的讲解中穿插步骤或示例做说明,希望能通过更多的案例帮助读者理解每个模型和方法如何应用,但“纸上谈来终觉浅”,6.4和6.5中的每个模型、方法和技巧都需要读者多加练习才能融会贯通;尤其是本章最后两个案例演示了如何通过系统方法找到最优模型,这里面不是所有的工作都交给程序完成,仍然需要读者具备一定的模型、算法、数据的理解能力,这样才能设置合适的参数列表并寻找合适的组合模型器。