当前位置:首页 > 内容营销 > 正文

如何通过贝叶斯 A/B 测试评估赚更多的钱

如何通过贝叶斯 A/B 测试评估赚更多的钱

分析 A/B 测试的传统(也是最常用的)方法是使用所谓的 t 检验,这是频率统计中使用的一种方法。 虽然这...

分析 A/B 测试的传统(也是最常用的)方法是使用所谓的 t 检验,这是频率统计中使用的一种方法。

虽然这种方法在科学上是有效的,但它有一个主要的缺点:如果你只实现显着的结果,你会留下很多钱。

在这篇博文中,我将讨论为什么事后贝叶斯测试评估是比常客更好的评估方法,以促进您的业务发展。 如果这听起来很复杂,请不要担心 - 在文章的最后,您将能够轻松地进行自己的贝叶斯分析。

成功的 A/B 测试计划的挑战

可悲的事实是,我们看到许多测试程序无声无息地死去。

使此类程序保持活力是一项真正的挑战。 如果不是您组织中的每个人都相信实验,那么您将很难证明其价值。

当然,您可以从失败的测试中吸取教训,但是太多的测试会扼杀一个萌芽的测试程序。

这种对实验的信念高度依赖于获胜测试的数量。 如果您的赢率非常低(例如,低于 20%,这与行业平均水平相差不远,这取决于您询问的对象),您的网站不会随着时间的推移而发生太大变化。 这将耗尽您的测试团队的精力。

团队成员投入了大量时间和精力来寻找见解、开发测试变体并对其进行分析。 如果这些努力没有得到回报,那么他们的精力和动力就会下降(更不用说任何利益相关者的精力在没有投资回报率的情况下往往会迅速消退)。

另一个更重要的后果是您在组织中的知名度会降低。

太多失败的测试可能会导致您的测试团队失去组织的可见性。

如果您只在蓝色月亮中交付一次成功的变体,您将不会被视为对业务非常重要。 因此,您的计划将被取消优先级甚至中止。

A/B 测试计划:如何构建有效的流程

通过 Jaan Matti-Saul

强大的 A/B 测试计划将使您增加收入并了解有关客户的宝贵见解。

  • *
  • *
    • 我同意接收电子邮件。
  • 电子邮件 此字段用于验证目的,应保持不变。
立即获取

我们需要更多的赢家!

这个问题的解决方案是从你的 A/B 测试中获得更多的胜利者

但这说起来容易做起来难!

您可以通过改进转化研究或测试更大胆的更改来实现这一点,但另一种方法是通过更改统计数据来重新定义您认为的赢家。

好吧,这听起来可能有点粗略。 但是,我们一直在使用频率统计数据来评估我们的 A/B 测试存在一些挑战。

说什么? 我不明白!

使用频率统计的首要问题是难以正确解释测试结果。 t 检验(用于频率统计)检查两个独立组的平均值是否彼此显着不同。 这个检验的基本假设是A组和B组之间的转化率没有差异。这就是所谓的零假设。

图片由 Conductrics 的 Matt Gershoff 提供

通过频率测试评估,您试图拒绝这个假设,因为您想证明您的测试变体 (B) 优于原始 (A)。 在测试之前设置显着性水平(通常为 90% 或 95%),您可以判断测试的 p 值(1 - 显着性水平)是否低于阈值 p 值。 如果在原假设下结果不太可能——比如 p 值为 0.02——那么你可以安全地声明 A 的转化率不同于 B 的转化率。

无辜直到证明有罪

您可以将使用频率论者的统计数据与美国试验的过程进行比较。

图片来源

审判中的零假设表明被告是无辜的。 这是审判的起点:被告在没有合理怀疑的情况下被证明有罪之前是无罪的。 因此,替代假设指出被告有罪。 检察官有责任通过提供有罪的证据来证明被告根本不是无辜的。

然后,判断该证据。 陪审团问自己一个问题,“如果被告实际上是无辜的,数据是否可能是由于变化而发生的? 换句话说,原假设是否仍然成立?

如果数据很可能是在原假设为真的假设下发生的,那么我们将无法拒绝原假设,并声明证据不足以表明被告有罪。

如果数据很可能已经发生,那么证据对原假设提出的怀疑超出了合理的怀疑,因此我们拒绝原假设。

总之,t 检验仅告诉您基于 A 和 B 表现完全相同的假设结果有多令人惊讶。 我不了解你,但这让我很困惑! 显然,我不是唯一一个:最近的一项研究表明,超过 80% 的人完全误解了常客统计数据。

除了困惑之外,我实际上对“我发现这些结果的可能性有多大”不感兴趣。

我只想知道变体 B 是否比 A 更好。使用频率统计来评估 A/B 测试根本无法反映潜在的业务问题。

赢家还是没有赢家? 这就是问题所在

使用频率统计的另一个挑战是你面临一个二元结果:要么有赢家,要么没有。 换句话说,您可以拒绝原假设,也可以不拒绝原假设。 而且没有讨论的余地。

如果您查看下面的此测试结果,您会得出结论:没有赢家,不得实施。 p 值不足以拒绝变体具有相同转化率的原假设。 但是,我们在许多客户身上看到的情况是,这实际上会被解释为失败的变化! 他们会把整个测试的想法抛之脑后,测试一些完全不同的东西。

在此处下载 Excel 可视化

然而,似乎有一个积极的运动(测得的提升为 5%),但它根本不足以被认为是一个重要的赢家。 您可能只需要更多的转换(或更大的样本量)。

测试的想法其实很不错,只是需要做一些调整。

因此,频率测试的目标是找到真正的赢家:您需要毫无疑问地证明替代假设(可以是 5% 或 10% 的一小部分)。 您希望尽可能减少风险。 如果您考虑到 t 检验也已用于许多医学研究,这并不奇怪。 当然,如果您不能 100% 确定它不会使人们因杀死他们而变得更糟,那么您不想将药物推向市场。 那么你真的想把风险水平降到最低。 但是,这不是发展业务的方式。

您需要承担一些风险才能带来更多收入。

什么是替代方案?

在过去的几年里,贝叶斯评估 A/B 测试的方法非常受欢迎。 大多数著名的 A/B 测试软件程序现在使用(至少某种形式的)贝叶斯统计来评估测试结果:Google Optimize 使用贝叶斯统计,VWO 最近转向贝叶斯决策,Optimizely 的 Stats Engine 也使用贝叶斯统计的风格。

这并非没有道理:贝叶斯统计更有意义,因为它更适合潜在的业务问题。

贝叶斯统计不使用零假设,而是直接解决业务问题: B 优于 A 的可能性有多大?

使用贝叶斯方法可以避免违反直觉的 p 值定义。 假设零假设为真(数据|假设),而不是定义观察到的或更极端结果的概率,可以确定后验概率:假设为真的概率,给定观察到的数据(假设|数据) . 这正是我们在 A/B 测试中寻找的:鉴于测试中的观察数据,B 优于 A 的可能性有多大?

贝叶斯测试评估

当您使用贝叶斯统计来评估您的 A/B 测试时,不再涉及困难的统计术语。 没有零假设,没有 p 值或 z 值,等等。 它只是向您显示测量的隆起以及 B 优于 A 的概率。

很容易吧? 这个大家都能理解。

根据我之前向您展示的 A/B 测试的相同数字,您有 89.1% 的机会 B 实际上比 A 更好。可能每个经理都会理解这一点并且会喜欢这些几率。

使用贝叶斯 A/B 测试评估方法时,您不再有二元结果,而是一个介于 0 和 100% 之间的百分比,是否比原始变体表现更好。 在本例中为 89.1%。 因此,与其说“我们不能拒绝假设 A 的转化率等于 B 的转化率且 p 值为 0.102”,而是说“A 的转化率有 89.1% 的可能性是比B好。”

你喜欢哪个?

让我们下注吧!

剩下的问题是:您应该实施这种变化吗? 现在通过贝叶斯分析,您可以进行风险评估。 当您要实施变体时,您可以计算结果在收入方面的含义。

收入的平均提升(示例中的所有绿色条一起)可以乘以平均订单价值并延长到 6 个月的时间(这只是一个大概的范围,因为我们真的不知道实施将推动收入多长时间)。 对于转化率的平均下降(所有红色条加起来)也可以这样做。

在此示例中,这意味着该客户在实施变体时有 10.9% 的机会亏损(约 20 万),但也有 89.1% 的机会增加收入(约 66 万)。 可能每个经理都喜欢这些赔率并实施变化。

总之,通过贝叶斯测试评估,可以绘制出实施非显着测试变化的风险。 每个测试都会产生风险评估,其中根据变化实际表现不佳的风险评估预期的额外收入。 积极的影响是将实施更多的变化,从而带来更高的收入增长。

我应该承担多少风险?

根据您从事的业务类型,您可能或多或少愿意承担风险。 如果您是一家初创企业,您可能想要承担比完全成长的企业更多的风险。 众所周知,我们人类厌恶风险,不喜欢赔钱的几率,所以我们从我们的大多数客户身上看到,他们更喜欢至少 75% 的概率。

这个概率不是一个固定的数字,但可能会因测试类型而异。 如果您只更改标题,那么风险就会低得多,例如,当您需要在结帐页面上实现新功能时。 这将消耗更多的资源。 因此,您将需要更高的概率才能决定实施变体。

DIY!

最近我们也把这个贝叶斯 Excel 计算器变成了一个网络工具。 任何人都可以免费使用。 在这里查看。 您可以输入测试数据并计算结果。 它将返回 B 优于 A 的机会、A 和 B 之间差异的后验模拟分布以及风险评估。

结论

总而言之,使用贝叶斯统计来评估您的 A/B 测试结果比使用频率统计有很多优势:

  • 更容易理解:不再涉及困难的统计术语。
  • 它更适合业务:它会告诉您 B 优于 A 的概率,您可以根据手头的测试进行适当的风险评估。
  • 您不会丢弃具有指示意义的好的测试想法。
  • 您将获得更高的实施率和收入增长,因为您不会坚持实施明显的赢家,而且还会实施很可能为您赚取更多收入的变体。
  • 您将在测试团队中拥有更多精力并在组织中获得更高的知名度,从而使 A/B 测试计划成功!

特色图片来源

,

最新文章