川卓解释一下!网站分析流程 5:如何正确评估你的策略

网站分析流程 我们广受欢迎的网站分析流程系列的第五部分也是最后一部分即将发布。 ※未来还将开发其他系列,敬请期待!

在上一篇文章(小川卓讲解!网站分析流程4:充分利用AB测试的两点)中,我们讨论了具体应该在何时使用实际产生的改进建议。我们应该检验这个假设吗?为此目的有效利用 AB 测试的关键点是什么?我谈到了以下内容:

网站分析流程 5:如何正确评估您的措施

分析网站,提出改进建议并实施这些措施。那么,我们该如何评价结果呢? AB 测试需要进行多少次测试?你应该看它多久?有显著差异吗?各种各样的问题和疑虑就会出现。本文将介绍一些思考方法。我们希望您在进行测试时也能够做出更准确的评估。


评估政策的两大指标:直接指标和结果指标

在推行一项政策的时候,总是用两个指标进行评估。这些是“直接指标”和“结果指标”。

直接指标是“受政策直接影响的数字”。例如,如果您将链接的措辞更改为“联系我们”按钮,您首先会期望的是按钮的点击率有所提高。

示例:哪个标语更有可能被点击?

此外,更改登录页面上显示的内容的序或修改文本可能会影响滚动率。

首先,确定一个(或多个)在实施这些措施时会产生直接影响的指标。代表性指标包括以下几个:

顾名思义,绩效指标就是所采取的措施对网站最终目标(如查询或购买)产生的影响。因此,需要关注的指标是相关活动的转化次数和访问转化率。确定您想要通过您的广告系列增加哪些转化次数。

顾名思义,绩效指标就是所采取的措施对网站最终目标(如查询或购买)产生的影响。因此,需要关注的指标是相关活动的转化次数和访问转化率。确定您想要通过您的广告系列增加哪些转化次数。

务必提前检查直接指标和结果指标的数字。想象一下你想将该数字增加多少是很重要的。

例如,假设您当前的详细信息页面到购物车的比例是 5%,详细信息页面转化率是 2.5%,也就是 120。这些是当前的直接和间接指标值。

假设您的目标是通过努力将购物车转化率提高到 7%。如果此后过渡率没有改变,

 

为什么我们需要同时关注直接指标和结果指标?

您应该始终关注这两个指标,这是有原因的。这样做的原因是为了正确衡量措施的有效性。上述关于数字将会改善多少的最后例子是基于“后续转换率不会改变”的假设。

但这个前提可能有所不同。换句话说,即使从详情到购物车的转化率增加了,从购物车到付款的转化率可能会下降。

在这种情况下,如果只看直接指标,数字似乎有所改善,但这意味着绩效指标并没有增加。这就是为什么您需要查看这两个数字。

现在,通过观察这两个指标如何变化,我们可以做出更好的评估。请参阅下面的矩阵表。

 

怎样判断一项政策是好还是坏?

在上面的例子中,我们写了“ 沙特阿拉伯赌博数据  改善”和“恶化”,但是什么决定了某件事是好是坏呢?您可能会想,“为什么这是必要的?”

例如,如果转型率从 34% 上升到 58%,这可以被视为一种进步,但如果转型率从 34% 上升到 36%,这能被视为一种进步吗?为了判断一项政策是否有效,需要一些规则和标准。让我们来看看它们。

第一,检测次数。您可能会认为,案例数量越多,准确度越高,案例数量越少,准确度越低,这是正确的。数量越多越好,但这取决于站 甘肃手机号码一览表 点的大小和测试周期等。

很多公司可能认为测试周期越短,准确性越高。因此,事不宜迟,以下是我推荐的三条规则:

1)测试周期至少为一周,最好为两周。
2)检验所需的“结果指标”数量应为100个以上,若有困难,则应使用100个以上的“直接指标”
。3)对于显著性差异,应使用80%以上的置信水平。

我将会对每一个进行解释。

1)测试周期至少为一周,最好为两周。不超过一个月

我们指定一周以上的时间是因为工作日和周末之间的活动可能会发生变化。即使几天就有足够的数据,也请尝试查看一周的数据。此外,我们不建议时间超过一个月,因为很有可能受到季节因素和其他措施因素的影响。 ※但是,如果判断评估期限没有问题,则可能会超过一个月。

与上述相关,在长假期间,情况很有可能与平时不同,因此请务必提前决定是否进行检测等要确认的内容,然后确定在这样的期间内是否可以毫无问题地评估措施。

2)所需测试的数量理想情况下为100个或更多的“结果指标”,但如果这有困难,也可以使用100个或更多的“直接指标”。

对于AB测试,每个测试模式都会收集100个案例,对于常规措施,实施后将持续该过程直到收集到100个案例。然而,根据您网站的规模和 数据科学与机器人技术:下一个重大研究领域? 转换类型,可能需要几个月甚至更长时间才能实现 100 个绩效指标。

那么,让我们来看看 100 个“直接指标”。然而,在这种情况下,一定要检查至少不会对性能指标产生负面影响。此外,我们认为不应该对每月直接指标少于 100 个的页面进行测试。最好先优先吸引顾客。

3)对于显著差异,我们寻求 80% 或更高的置信水平。

这就意味着要判断每种模式哪一方获胜,或者在政策实施前后,但一般不可能有一方100%获胜。即使您在验证期间获胜,也存在随后失败的可能性。换句话说,在评估一项政策的时候,你验证的是获胜的“概率”。为了了解这一点,我们来看看可靠性。

我们不会详细讨论如何计算,但您可以使用主要的 AB 测试工具(例如 Google Optimize)检查这些数字。如果您尚未实施 AB 测试工具,或者想要比较实施前后的时期,那么使用可以计算可靠性的服务或工具是一个好主意。

滚动至顶部