如何进行合理的运营测试?

浏览: 2026

我的运营策略是否有效?活动规则是否合理?这些问题抛给数据分析师,让他们从数据库中去扒信息回答你,其实是值得画问号的。最合理的方式就是做测试,或者说『对比实验』。通过测试中落下来的数据,才能形成合理的判断。

撰写本文的目的在于,从最近我团队所尝试的若干个运营测试中,抽象出一套更普适的方法论,帮助大家更『聪明的』做运营。

  • 运营测试的步骤
    我将运营测试的执行步骤概括为下图。我将有选择地对图中的各个步骤进行讲解。

    Clipboard Image.png

  • 运营测试步骤详解

    我将运营测试过程分为『问题』、『过程』、『传达』三个步骤。我们测试来源于业务问题的提取,测试过程贯穿着统计学的思想和方法,测试结果需要有效地传达给别人;只有这三个环节都完成,才能称为一个完整的运营测试。

  • 产生问题

    毫无疑问,问题一定来源于业务。我们测试的目的就是找到解决业务问题的有效方案。因此在产生问题这个环节,我们需要去调研各种各样的业务困难,然后针对不同的困难先想出大致可执行的方案。所谓的『产生问题』中的『问题』,其实是『这个方案有效吗?』这样的『是/否』问题。

    我个人是倾向于将业务问题都不断地拆解,最终转化为『是/否』问题。这样的二元问题,可以比较容易量化。

  • 利用ICE方法评估方案

    ICE方法告诉我们,评估方案的可测试性,或者说测试的优先顺序,需要从Impact(影响面的大小)、confidence(提出者对执行效果的信心)、easy(执行的难易度)三个角度来评估。每一项都进行0-10分整数打分,三项得分求和后,得分最高的方案先进行测试。影响面即我们的测试方案能多大面积地影响我们的用户。影响面越大,分数越高。提出者对于测试成功的信心越足,则confidence这一项得分越高。对于执行的难易度,我们需要从是否需要产研参与?是否需要外部条件?需要多少金钱花费?需要多少时间?等角度考虑,执行难度越低,得分越高。

    ICE方法为我们提供了一种思路。不过目前我所经历的测试并没有参考这个方法进行打分评估。以后需要往这个方向进行优化。

  • 设计指标

    指标是运营目的的量化。通俗得说,我们的方案实施后,解决了某个问题,那么就要从我们设计的指标上能反映出来。重要的是,指标要对问题的改善敏感(信度和效度都要好)。因此我们不能机械地盯着几项KPI指标。针对测试,需要找到更敏感更细节的指标。当然,若KPI指标能够胜任,再好不过了。

  • 准备工具

    明确的计划+自动化的运营工具+人工的操作方法+人员配备+资金预算+合适的时间+风险控制=准备工具。

  • 选择对象

    首先,实验对象一定是我们能操纵的事物。可能是我们的客户,也可能是某种资源。目前,我们给力的产研团队已经提供了灵活的segment工具,因此我们可以针对用户进行圈群组的方式,来选择实验对象。

  • 随机分组

    这点在实验过程中万分重要,若没有随机分组的保证,后续所有的步骤和结论都将不可靠。如何实施呢?我们圈选了我们的实验对象后,要将他们随机地分到实验组和对照组。在大家熟悉的Excel中,可以使用RAND()函数给每个用户生成一个随机数,然后按这个随机数排序,排序后取出前一半人作为实验组,后一般人作为对照组。

    我们实验的目的是量化某个运营动作带来的效果。通过随机分组,给实验组施加这个运营动作,对照组不施予任何动作;然后对比实验组与对照组在实验指标上的变化,进而形成判断。这样的横向对比,效果是好于时间维度的纵向对比的。前提是实验组与对照组在除了『是否施予运营动作』之外的其他条件上都是相同的。而随机抽样就是对这种一致性的保证。

  • DID方法

    我这里用一个图来说清楚DID,即双重差分测量法。

    Clipboard Image.png
    运营实验必然会在时间上有一个跨度。所以有人就会挑战:在时间变化后,实验组和对照组的数据可比性如何保证呢?答案就是应用DID。通过如上图的一个双重差分过程,我们就可以将两个组在时间维度上的指标变化剔除掉。
    上图中的表格,大家去填满了,即完成了DID方法的过程。我们需要在两个时间段(测试前和测试实施后),计算两个群体(实验组和对照组)的一个指标(用户购买率),这样就先有了表哥中左上部分的4个数字。由这4个数字,我们能算出4个差值,最后,竖排两个差值相减和横排两个差值相减,结果一样,都是我们右下角的DID值。这个就是双重差分法的实施过程,右下角的这个『0.25%』,就是我们对实验效果的量化值。

    需要补充一点,观察实验组合对照组在测试实施前的数值差距,我们可以判断随机分组是不是有效。若两者差距很大,说明我们分组的随机性很值得怀疑,需要重新分组。合理的随机性分组应该使得这两个数字差距不太大。但这种做法在统计学上是不严谨的,这里面水有点深,暂时不展开讨论。

  • 假设检验

    实验中的假设检验方法引申为方差分析方法。这部分我觉得暂时不掌握没关系,因为方差分析的适用条件比较苛刻,对统计学理论的要求也比较高。大家把DID用好之后,我会另外撰文介绍。

  • 形成结论

    这部分主要从DID数值中来。主观的说,DID数值若能占到测试实施前数值的5%以上,我们有充足的理由去判断实验方案是有效。

  • 传达部分

    传达部分我觉得不需要多费唇舌,流程图中的文字表述足够大家理解。需要强调的是:做完了测试,不管测试方案是否有效,一定要落地成规范的文档。因为无效也是有价值的经验,别人读了之后,也许可以少走弯路,或者在不同的场景中尝试一样的方法,可能就奏效了。

推荐 1
本文由 胡晨川 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册