当前位置:首页 > 营销观察 > 正文

创意测试:为什么控件如此难以击败?

创意测试:为什么控件如此难以击败?

Consumer Acquisition 的 Brian Bowman 就 Facebook 如何运营其创意广告测试平台提供了一些有趣的见解。...

30秒总结:

  • Facebook 的拆分测试似乎保留了控制广告的创意历史。 这使控件在每千次展示次数 (IPM) 测试中具有显着优势。
  • Facebook 还可以将具有与控件相似外观和感觉的变体分组。 因此,外观相似的广告也可能以更高的 IPM 开始。
  • 在视觉上与控件非常不同的创意概念不共享创意历史。 这些变化的 IPM 往往从接近于零开始。
  • 新的、“开箱即用”的视觉概念可能需要 Facebook 获得更多印象才能量化其性能。

高性能的创意对于社交广告来说是一种难得的东西。 根据我们的经验,在花费超过 30 亿美元在 Facebook 和 Google 上推动 UA 之后,通常只有十分之一的广告可以击败“表现最佳的控制”(顶级广告)。 如果一个创意的表现没有超过最好的视频,那么运行它就会赔钱。 失败者被迅速杀死,而胜利者则被放大到月球。

现实情况是,绝大多数广告都失败了。 下图显示了超过 17,100 个不同广告的结果。 根据广告效果分配支出。 如您所见,在这 17,000 个广告中,只有少数广告占了大部分支出。

大多数创意的高失败率影响了创意策略、预算和广告测试方法。 如果您无法快速且经济地测试广告,您的广告系列的财务表现可能会受到大量非转化支出的影响。

但仅靠测试是不够的。 您还必须产生足够的原创创意概念来推动测试并发现获胜者。 多年来,我们发现 20 个广告中有 19 个失败(5% 的成功率),您不仅需要一个新创意:您需要 20 个或更多新创意来维持性能和规模!

相关内容

  • 数字广告Facebook 的 Power5 策略:如何在 2019 年在 Facebook 上做广告

  • 如何测试 Facebook 广告活动的社交媒体策略

你需要所有新的创意,因为创意很快就会疲劳。 根据您的广告支出和标题的获利方式(IAA 或 IAP),您可能每月甚至每周都需要 20 个新的创意概念。 您通过帐户进行的支出越多,广告效果下降的可能性就越大。

所以,我们测试了很多创意。 事实上,我们每年为客户制作和测试超过 100,000 个视频和图像! 但我们不只是测试很多新的创意。 我们还优化了我们的创意测试方法。 这听起来可能有点“元”,但对我们来说,验证和挑战我们的方法和结果至关重要。

当我们从一组竞争广告中选择一个获胜的广告时,我们想知道我们做出了正确的决定。 当五个新概念中的四个因为没有经过很好的测试而被淘汰时,我们的反应是继续前进并根据结果调整创意策略,以尝试寻找其他可行的想法。

因为我们的测试结果会产生后果——有时是重大后果——我们测试我们的测试过程。 我们质疑我们的测试方法和塑造它的假设。

到目前为止,我们如何测试创意

在过去的几年里,为了简化我们的 Facebook 和 Google 创意测试并减少非转化支出,我们一直在使用 IPM(每次安装的展示次数)作为主要指标来测试新的视频概念。

作为记录,使用 IPM 并不是 Facebook 推荐的最佳实践,它允许广告集通过收集足够的数据使其在统计上有效而退出学习阶段。

在测试创意时,我们通常会使用 Facebook 的拆分测试功能测试三到五个视频以及一个控制视频。

我们会将这些广告展示给广泛的或 5-10% 的 LAL(Lookalike)受众,并将分发仅限于 Facebook 新闻源,仅限 Android,我们将使用移动应用安装竞价 (MAI) 来获得大约 100-250 次安装。

如果这些新的“竞争者”广告之一击败了控制视频的 IPM 或在其性能的 10%-15% 以内,我们会将这些潜在的新获胜视频与控制视频一起投放到广告组中,并让他们进行竞争以生成广告支出回报率。

我们已经在众多广告帐户中看到了我们将要描述的内容的暗示,并且已经与其他广告商确认他们看到了同样的事情。 但出于解释的目的,让我们关注我们的一位客户以及他们的广告在最近的创意测试中的表现。

在两个月的时间里,我们为这个客户制作了+60 个新的视频概念。 他们都未能击败控制视频的 IPM。 这让我们觉得很奇怪,而且在统计上是不可能的。

我们预计会在 5% 的时间或 20 个视频中产生 1 个新的获胜者——因此 3 个获胜者。 由于我们对自己的创意充满信心,因此决定更深入地研究我们的测试方法。

传统的测试方法包括测试测试系统或 A/A 测试的想法。 A/A 测试类似于 A/B 测试,但不是测试多个广告素材,而是在测试的每个“广告位”中测试相同的广告素材。

如果您的测试系统/平台按预期工作,假设您接近统计显着性,所有“变化”都应该产生类似的结果。

如果您的 A/A 测试结果非常不同,并且测试平台/方法得出结论,与其他变体相比,一个或另一个变体明显优于或低于其他变体,则可能是测试方法或收集的数据量存在问题。

以下是我们如何设置 A/A 测试来验证我们对 Facebook 测试的非标准方法。

该测试的目的是了解 Facebook 是否保留了控件的创意历史,从而提高了控件的性能,使其很难被击败——如果你不允许它退出学习阶段并达到统计相关性。

  • 我们将控制视频复制了四次,并在每个新“变体”的不同位置添加了一个黑色像素。 这使我们能够运行对人类来说看起来像相同的视频,但在测试平台眼中却是不同的视频。 目标是让 Facebook 为每个克隆的视频分配新的哈希 ID,然后一起测试它们并观察它们的 IPM。
  • 这些是我们投放的广告……除了我们没有投放热狗; 我已经用可爱的狗狗替换了实际的广告,以避免泄露广告商的身份。 图片最右侧的每个广告的 IPM。

这里需要注意的事项:

  • 最右边的广告(在蓝色方块中)是控件。
  • 所有其他广告都是控件的克隆,添加了一个黑色像素。
  • 最左边的广告/克隆比对照高 149%。 如前所述,这种差异不应该发生。 如果平台真的是变异不可知论者,但是——为了省钱,我们没有遵循最佳实践来让广告集退出学习阶段。

我们仅针对 100 次安装运行了此测试。 这是我们用于创意测试的标准操作程序。

完成对 100 次安装的第一次测试后,我们暂停了活动以分析结果。 然后我们重新启动该活动,将安装量扩展到 500 次,以便更接近统计意义。

我们想看看更多的数据是否会导致 IPM 标准化(换句话说,测试结果是否会在变化中恢复到更均匀的性能)。

但是,第二次测试的结果保持不变。 注意:广告组没有退出学习阶段,我们没有遵循 Facebook 的最佳实践。

第一次测试的结果虽然没有统计学意义,但令人惊讶地足以值得进行额外的测试。 所以我们进行了测试!

视频创意二次A/A测试

对于我们的第二个测试,我们运行了下面显示的六个视频。 其中四个是具有不同标题的控件; 其中两个是与控件非常相似的新概念。 同样,我们没有经营热狗; 它们已被插入以保护广告客户的身份并为您提供可爱!

所有广告的 IPM 范围在 7 到 11 之间——即使是未与控件共享缩略图的新广告也是如此。 图片最右侧的每个广告的 IPM。

视频创意第三次A/A测试

接下来,我们测试了六个视频:一个对照和五个与对照视觉相似但与人类截然不同的变体。 IPM 介于 5-10 之间。 图片最右侧的每个广告的 IPM。

第四次视频创意A/A测试

这是我们“啊哈!”的时候片刻。 我们测试了六个非常不同的视频概念:一个控制和五个全新的想法,所有这些在视觉上都与控制非常不同,并且没有共享相同的缩略图。

控件的 IPM 在 8-9 范围内保持一致,但新视觉概念的 IPM 范围在 0-2 之间。 图片最右侧的每个广告的 IPM。

以下是我们对上述测试的印象:

  • Facebook 的拆分测试保留了控制视频的创作历史。 这通过我们的非统计相关、非标准 IPM 测试最佳实践为控制提供了优势。
  • 我们不清楚 Facebook 是否可以将具有与控件相似的外观和感觉的变体分组。 如果可以的话,外观相似的广告也可以根据控制的影响从更高的 IPM 开始——或者类似的缩略图可能会影响非统计相关的 IPM。
  • 视觉上与控件截然不同的创意概念似乎没有共享创意历史。 这些变化的 IPM 与控制无关。
  • 似乎新的、“开箱即用”的视觉概念与控件可能需要更多的印象来量化它们的性能。
  • 如果我们不使用控制视频作为获胜的基准,我们的 IPM 测试方法似乎是有效的。

IMP测试总结

以下是第二次、第三次和第四次测试的折线图。

这就是我们认为它们的意思:

创意测试 2.0 建议:

鉴于上述结果,我们这些使用 IPM 进行测试的人有机会重新测试排除控制视频的 IPM 获胜者,以确定我们是否一直在扼杀潜在的获胜者。 因此,我们推荐以下三阶段测试计划。

创意测试阶段 1:初始 IPM 测试

  • 使用 MAI 出价在一个广告集中使用 3~6 个广告素材(切勿在广告集中包含控制)
    • 比 Facebook 拆分测试便宜,但不是最佳实践,也不会达到统计相关性
  • 美国 5% LAL(其他国家仍使用 5% LAL)
    • 这将使您的受众达到 1000 万或更小(其他地理区域)
  • 隔离一个操作系统(iOS 或 Android)
  • 仅限 Facebook 新闻源
  • 产生超过 100 次安装(在高 CPI 情况下可以接受 50 次安装)
    • 100 次安装:70% 的置信度和 5% 的误差幅度
    • 160 次安装:80% 的置信度和 5% 的误差幅度
    • 270 次安装:90% 的置信度和 5% 的误差幅度
  • 终身预算:$500~$1,000 以推动达到 70% 以上置信度的安装
  • 目标是快速且廉价地杀死 IPM 失败者,然后将前 1~2 个 IPM 获胜者带到第 2 阶段

创意测试阶段 2:初始 ROAS 测试

  • 一旦确定了高 IPM 获胜者,您就可以进入初始 ROAS 测试,看看高 IPM 是否也会产生收入
  • 制作新广告系列
  • 使用 AEO 或 VO 测试第一阶段的 IPM 获胜者
  • 10% LAL,自动放置,Android 或 iOS,但不使用 WW 受众进行测试,仅选择一个国家/地区
  • 1 个包含第 1 阶段 IPM 获胜者的广告集
  • 为下一轮的新 IPM 获胜者创建新的活动——不要添加来自其他测试的获胜者
  • 终身预算:$800~$1,500

创意测试阶段 3:ROAS 规模测试

  • 从第 2 阶段选择具有良好 ROAS 的获胜者
  • 使用 CBO,创建新的广告集并将其推广到对控制产生良好效果的目标受众
  • 针对不同测试轮次的新创意获胜者的新广告集
  • 切勿与广告组中的控制权竞争,相反,将它们分开并在同一广告系列中争夺更多预算

我们仍在测试我们的许多假设和非标准做法

  • 通过在便宜的国家/地区购买安装来预热 IPM 获胜者并建立“创作历史”是否有帮助?
  • IPM 获胜者应该与控制“隔离”多长时间,以便有时间建立学习?
  • 5-10% 的 LAL 取决于被测试国家的人口?
  • 以每个广告组 1 个广告或每个广告组多个广告的形式运行,结果似乎没有变化?
  • 终生预算与每日预算重要吗?
  • 新的广告系列重要吗?
  • 重置帖子 ID 重要吗?
  • 创意测试是否应该与测试帐户隔离?

我们期待听到您的测试情况并很快分享更多我们发现的内容。

Brian Bowman 是 ConsumerAcquisition 的创始人兼首席执行官。 他是一名优秀的移动绩效营销人员,在用户获取、综合管理和产品策略方面具有专业知识。 他的经验涵盖初创企业和大型公司环境,在将在线业务引导至盈利和高增长方面有着良好的记录。 Brian 为领先的在线品牌(包括迪士尼、ABC、Match.com 和 Yahoo!)管理了超过 10 亿美元的在线广告支出和产品开发,并从中获利。

,

最新文章