当前位置:首页 > 内容营销 > 正文

在 A/B/n 测试中你可以有多少变化?

在 A/B/n 测试中你可以有多少变化?

就在您开始认为 A/B 测试相当简单时,您遇到了新的战略争议。 这是两极分化的:有多少...

就在您开始认为 A/B 测试相当简单时,您遇到了新的战略争议。

这个是两极分化的:你应该针对对照测试多少个变化?

对此,众说纷纭,有的完全相反。 其中一些归结为策略,一些归结为数学。 其中一些可能取决于您的程序的复杂程度的业务阶段。

不管怎样,这都不是一个直接、简单的答案。 让我们从简单的东西开始:数学。

多重比较问题

当您同时测试多个变体时,您会遇到所谓的“累积 alpha 错误”。

基本上,您运行的测试变体越多,误报的概率就越高。

这么说吧:如果您根据 95% 的显着性做出决策,那么 1 类错误(“alpha 错误”或误报)的概率为 5%。 这意味着在所有案例中,有 5% 的情况下会假设有显着影响,即使实际上根本没有。

这个累积因素是反对谷歌 41 种蓝色测试的效率的一个论点(尽管我确信他们纠正了这个错误)。 这是来自 konversionsKRAFT 的一个很棒的视觉效果,用于说明不断增加的风险:

计算累积 alpha 的方法是:

累积 alpha = 1-(1-Alpha)^k

Alpha = 选定的显着性水平,通常为 0.05

k = 测试中的测试变体数量(不含对照)

因此,您可以看到随着每个新变化的出现,您的误报风险急剧增加。 那么应该很明显——只测试一个变体,对吧?

嗯,不是真的。 大多数工具,包括 Optimizely、VWO 和 Conductrics,都内置了用于纠正所谓的多重比较问题的程序。 他们可能使用不同的技术,但他们解决了问题。

A/B 测试计划:如何构建有效的流程

通过 Jaan Matti-Saul

强大的 A/B 测试计划将使您增加收入并了解有关客户的宝贵见解。

  • *
  • *
    • 我同意接收电子邮件。
  • 电子邮件 此字段用于验证目的,应保持不变。
立即获取
即使您的测试工具没有内置校正程序,您仍然可以自己校正 alpha 错误。 有许多不同的技术可用,我不是它们之间权衡的专家(也许真正的统计学家可以在这里插话):

  • F 检验。
  • 邦费罗尼校正
  • 错误发现率
  • Šidak 校正

尽管在调整 alpha 错误时,您在降低 I 型错误的风险的同时,也增加了 II 型错误的风险(实际上并没有看到差异)。

此外,安德鲁·格尔曼 (Andrew Gelman) 写了一篇很棒的论文,指出从分层贝叶斯的角度来看,多重比较的问题可能会完全消失。

Dynamic Yield 的首席数据科学家 Idan Michaeli 还指出,采用贝叶斯方法可以解决这个问题:

伊丹·米凯利:

“当 A/B 测试许多变体和/或多个目标 (KPI) 时,多重比较问题确实是一个严重的问题。 然而,这主要是被称为假设测试的标准广泛使用的 A/B 测试方法的一个缺点。 解决这个问题的一种方法是采用贝叶斯方法进行 A/B 测试,如我最近关于贝叶斯测试的文章所述。”

正如Conductrics 的首席执行官Matt Gershoff 所说,这假设您有一个强大的先验,即变化确实相同——所有这些都真正导致了部分数据池,Matt 在这篇很棒的文章中写道。

图片来源

如果您仍然害怕比较多个均值的数学含义,请注意,当您对数据进行测试后分割时,您实际上是在做同样的事情。 VWO 的 Chris Stucchio 写了一篇很棒的文章:

克里斯·斯图奇奥:

“您拥有移动设备和桌面设备、50 个州,以及 20 个重要的推荐流量来源(谷歌搜索、合作伙伴链接等)。 总而言之,这是 2 x 50 x 20 = 2000 个段。 现在让我们假设每个段都与其他每个段相同; 如果您对数据进行细分,您将纯属偶然地获得 0.05 x 2000 = 100 个具有统计意义的结果。

幸运的是,谷歌推荐的肯塔基州 Android 用户、直接推荐的内布拉斯加州 iPhone 用户和新泽西州的桌面用户都更喜欢重新设计。 哇!”

总之,如果您使用正确的工具或拥有优秀的分析师,那么数学并不是真正的问题。 数学很难,但并非不可能或危险。 正如马特·格肖夫 (Matt Gershoff) 恰如其分地指出的那样,“重点不是太纠结于哪种 [更正] 方法,只要已经完成即可。”

另外,感谢马特帮助我在这里获得所有数学知识。

因此,不考虑数学角度,我们只剩下一个战略决策。 投资回报率在哪里,测试尽可能多的变化或限制范围并可能更快地移动到下一个测试?

最大化变体数量的案例

谷歌测试了 41 种蓝色。 有些人喜欢这样,有些人讨厌这种决策。

图片来源

虽然大多数人没有这种流量,但重点仍然是:这是数据驱动的决策。 没有意见,没有风格。

现在,考虑到交通现实(您无法像 Google 那样进行测试),一次测试多种变体是否适合您? 有人这么说。

Recovery Brands 的优化总监 Andrew Anderson 不久前写了一篇文章,概述了他的基于学科的测试方法。 在那篇文章中,他写道:

安德森:

“选项越少,测试的价值就越小。 就我而言,任何少于四个变体的项目都不适合我们的计​​划,因为发现、成功以及最重要的结果规模的机会有限。 即使我认为五个选项的更改更有可能产生影响,我也会优先考虑 10 个选项的测试而不是五个测试。 最重要的是选项的范围和数量。

这些规则不是特定于测试的,这就是为什么我只建议对每月至少有 500 次转换的网站执行此优化过程,每月至少有 1000 次更合理。 无论您在资源、概念测试版和流量方面可以管理的最大值是多少,这都是目标。 这就是为什么 Marissa Mayer 和 Google 进行了著名的 40 度蓝色测试,他们可以。”

这种方法与许多专家的建议形成鲜明对比。 许多人不仅建议您一次只测试一个元素(不好的建议),而且大多数人还说您应该坚持简单的 A vs B 测试。

所以,自然而然地,我联系了安德鲁,想清楚一些。 毕竟,他的方法似乎也适用于微软、亚马逊,当然还有谷歌等大公司。 它也适用于流量较少的公司吗? 该方法的适用性如何?

他是这样说的:

安德森:

“我会尽可能多地使用流量和资源。 这是从我做的前几次测试中了解站点的一部分(方差研究在这里也有帮助)。 要记住的最重要的一点是,变化越大,我就越有可能进行测试(或者至少风险变得更容易管理)。

我在单次测试中所做的最多变化通常是 14-15。 我尝试进行脆弱性建模以找出最佳点是什么。 即使在流量最高的网站(我曾在前 200 个网站中的 16 个网站上工作过),最佳位置通常仍在 12-16 个范围内。 我从不使用少于 4 个的替代方案进行测试。 还要记住,选项的 beta 比选项的数量更重要。 这就是为什么我强迫我的团队从概念和概念的执行方面进行思考,以避免我们的焦点过于狭窄。

使用我当前的设置,我们拥有大量站点,因此我们根据可以合理测试的体验数量对站点进行分组。 我们最大的站点仍处于中低档,有 7-8 个替代品。 我们测试的最低网站(每天大约 10 个转化事件)获得 4-5 个。 低于该标记永远无法管理的站点,我们不会进行测试并寻找其他优化方法。”

重点是什么? 效率。 您测试了这么多变体,并限制了阻碍测试程序的意见。 这也(在我看来,这些不是 Andrew 的想法)有点像 The Onion 迫使作者为每篇文章制作 20 个标题。 前几个很容易,但到了最后 5 个,你真的在​​突破界限并抛弃假设。 测试大量的狗屎,你一定会得到一些你永远不会想到的解决方案。

当然,安德鲁并不是唯一提倡测试多种变体的人。 来自 Dynamic Yield 的 Idan Michaeli 说很难限制你测试的变体数量。 他也提到,无论您运行多少变体,变体之间的差异都是一个关键因素。

他说: “外观差异越大,你就能越快地以统计显着的方式检测性能差异。”

然而,通常情况下,变体# 是一种“视情况而定”的答案。 您正在处理的个别因素比固定的策略更重要。

最小化变异数的案例

有很多人主张测试更少的变体而不是很多变体。 有些是出于我们上面讨论的数学原因,有些是作为优化策略的一种手段。

一点:通过 alpha 调整,运行具有更多变化的测试几乎总是需要更长的时间。 您可能正在使用一种强迭代方法,在这种方法中您正在细粒度地探索用户行为,并且一次只测试一个或几个变体。 或者,您的组织可能还没有进行长时间的测试,并且您想展示一些快速的胜利,而无需深入了解 ANOVA 和 alpha 误差膨胀的本质。

因此,您可以针对当前(缺乏)价值主张测试添加价值主张。 您很快就会获胜,并可以继续提高测试速度和程序的效率和支持。

还有一些其他原因,人们已经提到支持减少变体的数量。

样品污染

还有样品污染的问题,当样品不是真正随机化时,或者用户在测试中暴露于多种变化时,就会发生这种情况。

以下是 Online Dialogue 创始人 Ton Wesseling 的说法:

顿·韦瑟林:

“当用户返回实验时,他们中的一些人会删除他们的 cookie,他们中的一些人(更常见的是很多!)将使用不同的设备。

对于 1 个变体,如果它们在实验中返回,则它们最终会以相同的变体形式发生 50% 的变化。 如果您有 3 个变体,则它们最终出现在同一个变体中的变化只有 25%。

变化越多,污染越大。

受污染的样本会导致每个变体的转化率彼此更接近(通过长期实验,样本将受到污染,以至于它们几乎完全相同——因此所有变体的转化率都相同)。”

如果您想阅读有关 A/B 测试中样本污染的更多信息,请阅读我们的文章。

交通和时间

时间和交通也是一个问题。 创建 10 个截然不同的变体与仅创建一个变体需要多长时间? 你有多少流量,你需要多长时间才能完成一个有效的测试?

唐是这样说的:

顿·韦瑟林:

“此外,只有一个变体,因为大多数网站没有足够的用户和转化来运行多个变体实验——所以请始终告诉人们从一个变体开始(实验完全是一种快节奏的学习文化,所以请,即使你能够根据登录识别用户,不要运行测试时间太长以至于每个人都忘记了他们......)

样本污染意味着,随着更多变化,您将需要更多访问者和转化来证明获胜者。 但是,就像我说的,你不想延长测试运行的时间(因为:更多的污染并且它也在消耗实验带宽)。

在不考虑延长时间的情况下,您需要创建更大胆的变化(可能产生更大的影响),但这需要更多的时间和资源,因此只用一个大胆的变化进行实验更有意义。

您确实希望继续使用全部实验带宽,运行尽可能多的实验。 在站点的多个位置运行 10 次 A/B 实验比仅在一个位置进行一次大实验更好——您将收集更多行为洞察。”

Ton 还提到,仅针对控件运行一个变体是研究购买者/用户动机的好方法——基本上,探索哪些有效,哪些无效——然后通过其他方式(如强盗)利用它:

顿·韦瑟林:

“如果我们知道如何以及在何处激励这些用户,我们就会更频繁地转向利用,并基于此特定知识运行带有多种变体的 Bandit 实验(如果您有流量,分段和/或上下文应该是要走的路)。 但这完全是为了赚钱——不再学习——但我们在这个开发阶段做得很好,因为我们通过我们的探索方法预先学习。”

也有一个中间立场

我询问了 Web Arts/konversionsKRAFT 的数据与分析主管 Julia Engelmann 博士,他们如何决定要测试的变体数量,她说实际上并没有一刀切的答案。

正如她所说,“我认为不可能给出一个笼统的答案。 具体的测试设置取决于许多因素(见下文)。 根据我的个人经验和意见,我永远不会同时测试超过五个变体(包括对照)。

Idan Michaeli 也认为这取决于多种因素,没有灵丹妙药的答案:

伊丹·米凯利:

“这取决于你有多大胆,以及你想要结果的速度有多快。 您的资源就是您的流量和创造力,您需要明智地使用它们。 探索与利用的权衡意味着您需要平衡利用现有知识的愿望,为用户提供迄今为止您所知道的最佳体验,同时在您尝试发现更好的体验时也冒着提供次优体验的风险。

这里没有银弹。 尽最大努力提出不同的变体,并在短期内冒险探索它们以提高长期性能。 不要仅仅为了测试更多而创建一个新的变体——只有当你有理由相信它会比你迄今为止尝试过的所有方法都更好时才这样做。”

在没有非黑即白答案的前提下,如何决定测试多少个变体? 即使你相信最大化变化,你如何决定多少是最佳的?

哪些因素决定了您针对控件设置了多少变体?

建议阅读本文的不同观众要么测试 41 种颜色的深浅,要么只坚持一种变化,这可能并不明智。 正如您的受众、转化、收入、流量等不同,您的公司结构、政治和流程也是如此。 一刀切的答案是不可能的。

不过,有一些因素可以帮助您找到准确的方法。

根据 Ton 的说法,您在确定实验设计时会考虑常见因素:

顿·韦瑟林:

“用户/转换和实验带宽、获胜百分比和资源。 但这更多是关于您将在每个时间段内运行多少次实验。 因为它应该都有 1 个变体 :-)”

Julia Engelmann 博士给出了她的标准,主要是从统计学的角度:

朱莉娅·恩格尔曼博士:

  • 交通。 如果它是一个低流量的网站,我通常会建议以较少的变化但高对比度进行测试。
  • 变异与对照的对比。 估计的变化提升越高,您就越有可能在测试的帮助下发现这种提升。
  • 可接受且符合业务目标的预计测试持续时间
  • 可接受的阿尔法误差率——您愿意承担的最大风险水平是多少? 变化的数量越多,做出错误决策的错误率就越高。 如果您测试一个非常大的概念,它可能会产生巨大的业务影响,但在资源方面成本也很高,那么对测试结果非常确定是有意义的。 因此,我会推荐高置信度和更少的测试变体。”

正如文章前面引用的安德鲁所说,他运行脆弱性模型以找到给定上下文中的最佳点。 据他介绍,“即使在流量最高的网站(我曾在前 200 个网站中的 16 个网站上工作过),最佳位置通常仍然在 12-16 个范围内。”

至于寻找机会领域和影响因素,安德鲁写道,他有一系列不同类型的测试,旨在最大限度地提高学习效果,例如 MVT、存在测试和个性化。 当他专注于影响区域时,他会尝试最大化选项的 Beta 值,并且对于给定的解决方案,还尝试测试与此相反的选项(将在下一篇文章中介绍)。

占你的资源

除了流量,您还必须考虑您的个人资源和组织效率。 与增量测试(41 种深浅蓝色风格)相比,您的设计和开发团队需要多长时间进行一系列巨大的更改? 前者很多,后者几乎没有。

图片来源

首先,Ton 建议:“请不要做按钮颜色的事情,你想了解是什么驱动了行为,以及如何激励用户采取下一步行动。 再一次,使用测试等前端开发资源。机构也不必为更大胆的实验付出代价——资源不足也不能再阻碍你了。”

基本上,较小的更改(按钮颜色)几乎占用零资源,因此它们更容易测试许多变化。 它们也是,因为不会从根本上影响用户行为的微小变化,不太可能显示出大的影响。

另一方面,彻底的改变需要更多的资源,但你更有可能看到和影响。 当您将几个根本性的变化相互对抗时,您更有可能看到最佳(或接近最佳)体验。

安德鲁在他的 CXL 文章中说得很好,“如果我有 5 美元,我可以得到 10,很好,但如果我能得到 50、100 或 1000,那么我需要知道这一点,这是我做的唯一方法那是通过发现和利用可行的替代方案。”

结论

对于 tl;dr 来说,这真是太糟糕了,没有非黑即白的答案。 而且我在这场比赛中没有马,我是获得最好成绩的马的粉丝。 这取决于您的流量、转化率、受众以及公司文化和流程。

然而,一般来说,数学不是限制因素。 此外,您应该根据上面列出的因素进行选择。 为了支持更多的变化,您避免了由于您认为会(或不会)而对想法进行限制。 如果选项之间的差异很大,您就更有把握获胜。

限制您的变化与样本污染、交通和时间/资源问题有关。

最后,同一组织可以运行这两种类型的测试。 这是一项战略决策,不一定是我可以为您做出的。

特色图片来源

,

最新文章