当前位置:首页 > 内容营销 > 正文

PXL:优化 A/B 测试优先级的更好方法

PXL:优化 A/B 测试优先级的更好方法

如果你做对了,你的管道中可能有大量的 A/B 测试想法。 一些好的(有数据支持或仔细检查的结果)...

如果你做对了,你的管道中可能有大量的 A/B 测试想法。 一些好的(有数据支持或仔细分析的结果),一些平庸的想法,一些你不知道如何评估。

我们无法一次测试所有内容,而且我们的流量都是有限的。

你应该有一种方法来优先考虑所有这些想法,让你首先测试最有潜力的想法。 愚蠢的东西一开始就不应该被测试。

我们怎么做?

有很多优先排序的模型,虽然我们发现它们很有用,但我们也发现每个模型都存在某种缺陷。 所以我们开发了自己的。

注意:如果您不知道要测试什么,请研究 ResearchXL 模型以提出基于数据的测试思路。 当您需要一种以智能方式确定优先级的方法时,请回到这篇文章。

现有的优先级模型有什么问题?

“本质上,所有模型都是错误的,但有些模型是有用的”——英国统计学家 George EP Box

如果您参与优化游戏的时间超过一分钟,您可能听说过一些优先级框架(我们之前已经写过它们)。 两个最受欢迎的往往是:

  • PIE框架
  • ICE框架

馅饼

PIE 框架可能是转换优化领域最广为人知的框架。 它包括三个变量:'

  • 潜力 - 页面可以进行多少改进?
  • 重要性 – 页面流量的价值如何? (交通量等)
  • 易用性——在页面或模板上实施测试有多复杂?
图片来源

我们已经与客户一起使用了这个框架。 唯一的问题是每个变量的标准给解释留下了太多的空间。 你如何客观地确定一个测试想法的潜力?

如果我们提前知道一个想法有多少潜力,我们就不需要优先级模型。 或者,例如,如果你是更大团队的一员,并且你想推动你的想法,为什么不增加一些潜力(因为它是一个主观的数字)? 在理想的世界中,框架将消除主观性。

此外,很难客观地放置轻松的重要性,以及重要性。

群众的智慧往往是惊人的准确,但我们仍然对这条评论有类似的感受:

ICE分数

ICE 分数是GrowthHackers 项目中的默认优先级框架,由GrowthHackers 的创始人Sean Ellis 发明/推广。

这是它的要点:

  • 影响——如果这样做会产生什么影响?
  • 信心——我对这会奏效有多大信心?
  • 易用性- 实施的难易程度如何?

项目是一个伟大的产品。 我们用它来管理成长的想法。 但如果我能猜出影响是什么,我为什么还要测试呢?

它在这方面与 PIE 框架存在类似的问题,但除此之外,它还存在“我对这个想法有多大信心?”的问题。 再说一次,我们怎么能提前知道呢?

正如您希望的那样客观和“基于经验”,在这里获得一致和客观的评级几乎是不可能的。 同样,如果你真的想追求这个想法,也很容易歪曲。 或者,即使我们真的试图尽可能准确地对测试想法进行评分,3 分中的 2 分与“直觉”有关。

同样,一个有用的框架,但有其问题。

ICE(第二版)

还有另一个 ICE 框架,可能优化社区鲜为人知。 这也是一个首字母缩写词,它代表:

  • 影响——可以用销售增长、成本节约等来衡量。任何对公司有利的事情。
  • 成本——简单明了,这个想法的实施成本是多少?
  • 努力——有多少资源可用,这个想法需要多少时间?

这个 ICE 框架在你评价事物的标准上更​​具体一些。 它还缩小了范围:您只能给 1 或 2 分,这取决于您认为机会是“高”还是“低”。 然后你把所有的数字加起来,你就有了一个总分。 你根据这个数字做出决定。

图片来源

使用这样的二进制刻度,您可以避免集中趋势的错误。 较小的响应尺度也往往使事情更准确。 正如 Jared Spool 所说,“任何时候你要放大比例以查看更高分辨率的数据,这可能是一个标志,表明数据没有任何意义。”

这个更好,但仍然不完美——潜在的影响仍然是相当主观的。 你可能有很多想法都得到 3 或 4 分。那么你如何优先考虑这些想法?

HotWire 的优先级模型

在 CXL Live 上,Hotwire 的 Pauline Marol 和 Josephine Foucher 分享了他们的优先级框架。 该策略也在 Optimizely 的帖子中进行了概述。 它们也使用二进制评分系统:

图片来源

如您所见,它们扩展到包括许多特定于转化的变量,例如移动体验和定位。

在创建我们自己的健壮框架时,这个和二进制 ICE 框架是一个灵感。

我们想要消除模棱两可的东西 - 在对项目进行排名时,您必须做出是或否的二元决定。 我们还想要一些具有特定变量和特定标准的东西,所以没有什么只是说“影响”——相反,它会给出具体和客观的东西来评价。

在与我们的优化服务客户合作时尝试了各种想法之后,我们终于找到了一个真正帮助我们和我们的客户优先测试的模型。

介绍:PXL 框架

考虑到其他优先级框架的问题,我们开发了以下内容:

在此处获取您自己的此电子表格模板副本。 只需单击“文件”>“制作副本”即可拥有您自己的可自定义电子表格。

该框架带来了以下 3 个好处:

  1. 它使任何“潜力”或“影响”评级更加客观
  2. 它有助于培养数据知情文化
  3. 它使“易于实施”评级更加客观

一个好的测试想法是可以影响用户行为的。 因此,该框架不是猜测可能会产生什么影响,而是会询问您一系列有关它的问题。

  • 变化是否超出预期? → 首屏的变化被更多人注意到,从而增加了测试产生影响的可能性
  • 在 5 秒内变化是否明显? → 显示一组人控制然后变体,他们看到 5 秒后能分辨出不同吗? 如果没有,它的影响可能较小
  • 它是否添加或删除了任何内容? → 消除干扰或添加关键信息等更大的变化往往会产生更大的影响
  • 测试是否在高流量页面上运行? → 高流量页面的相对改进会带来更多的绝对美元。

如果我们所拥有的只是讨论关于要测试什么的意见,那么优先级排序就变得毫无意义。 在 CXL,我们已经看到了可靠转换研究的力量,因此许多变量都特别要求您将数据放在表格中以优先考虑您的假设。 来自意见的想法得分较低。

PXL模型要求大家带数据:

  • 它是否解决了通过用户测试发现的问题?
  • 它是否解决了通过定性反馈(调查、民意调查、访谈)发现的问题?
  • 鼠标跟踪热图或眼动跟踪支持该假设吗?
  • 它是否解决了通过数字分析发现的见解?

每周对每个人提出的这 4 个问题进行讨论,这将很快使人们不再依赖只是意见。

“数据是妄想的解药”——Alistar Croll 和 Benjamin Yoskovitz(精益分析的作者)

然后,我们还根据估计的时间将答案括起来,从而限制了实施的简易性。 理想情况下,您应该让测试开发人员参与优先级讨论。

尽管开发人员倾向于低估事情需要多长时间,但在这里强制根据时间做出决定使其更加客观。 少一些“在黑暗中拍摄”。

分级 PXL

我们是在二进制规模的假设下进行的——您必须选择其中之一。 因此,对于大多数变量(除非另有说明),您可以选择 0 或 1。

但我们也想对某些变量进行加权,因为它们很重要——如果添加/删除某些内容,更改的显着性,易于实施。 所以在这些变量上,我们专门说事情如何变化。 例如,在 Change 变量的可注意性上,您可以将其标记为 2 或 0。

可定制性

所有组织的运作方式都不同,因此认为相同的优先级模型对每个人都同样有效是幼稚的。

我们构建此模型的信念是,您可以并且应该根据对您的业务而言重要的内容来自定义变量。

例如,也许您正在与品牌或用户体验团队合作,并且假设符合品牌指南非常重要。 将其添加为变量。

也许您所在的初创公司的收购引擎主要由 SEO 提供动力。 也许您的资金取决于客户流。 因此,您可以添加“不干扰搜索引擎优化”之类的类别,这可能会改变某些标题或副本测试。

重点是,所有组织都在不同的假设下运作,但是通过自定义模板,您可以对其进行说明,并优化您的优化程序。

结论

如果您有很多测试想法,则需要一种方法来确定它们的优先级。 您如何确定它们的优先级对于您的测试和优化质量以及组织效率都很重要。

我们的 PXL 模型旨在尽可能消除主观性,同时保持可定制性。 很想知道它如何影响您的优先排序工作。

在这里尝试一下。

,

最新文章