bts防弹少年团演唱会

bts防弹少年团演唱会

保持团体:测试或虚假偶像的黄金标准?

《保持团体:测试或虚假偶像的黄金标准?》

您经常在弹出窗口的设计上运行A / B测试。 您有一个流程,正确实施,找到具有统计意义的重要赢家,并在整个网站推出获奖版本。

你的测试回答了除了一个问题之外的所有问题:获胜版本是否仍然比从未显示弹出窗口更好?

一个支持小组可以提供答案,但是,就像一切一样,它需要付出代价。

什么是支持组?

保留组是一种交叉验证形式,可以从测试中提取或“保留”一组用户。 您可以为A” b>和其他营销工作运行保留,例如%E6%BB%B4%E6%B0%B4%E7%94%B5%E5%AD%90%E9%82%AE%E4%BB%B6%E5%B9%BF%E5%91%8A%E7%B3%BB%E5%88%97“>

在完成测试和获奖版本的实施后,保留组将保持数周,数月,或在极少数情况下,数年。 在这样做时,坚持不懈地试图量化“提升” – 与无所作为相比收入的增加。

例如,“10%折扣”优惠券(通过弹出式广告或电子邮件广告系列投放)可能比当前“100美元购买100美元”优惠券产生的销售额增加15%。 然而,如果没有坚持,你不知道有多少消费者会在没有任何优惠券的情况下购买 – %E8%8E%B7%E8%83%9C%E7%9A%84%E6%B5%8B%E8%AF%95%E5%8F%AF%E8%83%BD%E4%BB%8D%E7%84%B6%E4%BC%9A%E5%87%8F%E5%B0%91%E5%88%A9%E6%B6%A6%E3%80%82″>

然而,大多数情况下, 挡泥板不是用于测量单次测试的升力,而是用于整个实验程序。 由于坚持要求从统计相关的观众群中抽走,因此只有拥有大量流量的网站才有意义。

保持和控制组之间的区别

想象一下,您想在产品页面上测试标题。 左侧的版本(Control)是当前版本,而实验版本(Variation A)位于右侧:

《保持团体:测试或虚假偶像的黄金标准?》

通过一些奇迹,假设Variation A表现更好,并为所有访问者实现它。 这是A / B分割测试的标准过程 – 50%在测试期间查看每个版本,100%在测试完成后看到获胜版本。

但是, 如果您继续向某些访问者显示控件版本,则该控件组将成为保留状态。 在其他测试中,控件可能不会从控制“转换”到保持。 相反,它可以是从一开始就省略的单独部分 – 就像电子邮件活动中一定比例的订阅者一无所获。

因为坚持可以估计营销工作的价值超过两个版本之间的相对改进,有些人认为它是测试中的“黄金标准”。

为何选民群体是“黄金标准”

对于许多人来说, 不为所动是用于测试的黄金标准,因为他们衡量不只是一个测试 ,但测试项目的价值

虽然测试的价值对于参与其中的人来说可能是显而易见的,但是单个测试结果不会汇总到C-Suite中的ROI%E8%AE%A1%E7%AE%97%E4%B8%AD%E3%80%82″>

  • 聘请数据科学家团队或电子邮件营销人员是否有意义?
  • 如果我们明天解雇整个团队,会发生什么?

Holdouts还有可能评估实验对客户终身价值的影响。 虽然短期拆分测试可能会记录点击次数,表单填写或销售额增加,但它并未捕获长期影响:

  • 弹出窗口和粘性条增加了电子邮件引线,但随着时间的推移,减少回访者?
  • 优惠券计划最终会减少非折扣商品的购买吗?

某些影响可能需要数月或数年才能实现,每天累积混杂因素。 因此,在测量测试的长期影响时,需要多长时间?

定义保持组的范围

你应该多久维持一个保持组? 如果没有一个明确的窗口,你可以进行荒谬的比较,比如几十年来坚持用来衡量你现在的网站与20世纪90年代后期的手工编码版本。

极端的决定是可笑的,但随着差距缩小 – 五年,三年,一年,六个月 – 他们变得更加困难。

挡风玻璃的回顾窗口和基线

在为保留组更新站点的“基线”版本之前应该经过多长时间? “这取决于你的目标,”CXL创始人Peep Laja解释道。 “你可以将它保持三年不变,但如果你想衡量年度投资回报率,那么你就要做一年一次的周期。

网站更改的程度如何? LL” bean>的高级程序员分析师Cory Underwood告诉我当它具有功能时,就会产生持久性感 。” “ 当它发送消息时,你会了解它的有效性和持续时间。

安德伍德继续说:

有时候你想要更长时间阅读。 您可以在个性化中看到这一点。 你可以在“从不”到“永远”的范围内以一种完全不同的体验来定位某个细分市场。说它赢了,你总是把它翻转。 六个月后,它还在推动回归吗?

一个保持小组提供了答案。 (同样,Laja指出,也可以重新开始你的A / B测试。)但除非你考虑两个时间段之间的季节性,否则你不会得到苹果对苹果的比较。

通过这种方式,一个保持群体具有独特的回报和挑战性:它可以减轻完成的A / B测试中的季节性,但在将保持组与获胜者进行比较时重新引入它。

像LL Bean这样的全渠道零售商管理着进一步的复杂性:证明网站变化对现场行为线下活动有长期的积极影响。 添加的变量可以延长保留时间线。 安德伍德已经长达两年的监禁组(他承认这是异常情况)。

对于值得保留组的测试类型和时间表,实现有其自身的考虑因素。

为测试实施保留组

坚持的实施不是公式化的。 从表面上看,它涉及将您的观众分成另外一个部分。 (保留段通常占总受众的1%到10%。)例如:

控制 :观众1(47.5%)

变化A :观众2(47.5%)

保持 :观众3(5%)

许多A” b>允许用户调整权重以向受众提供(或不提供)测试版本。 但并非每个测试都可以通过测试平台利用细分。

正如Underwood所解释的那样,决定在%E5%AE%A2%E6%88%B7%E7%AB%AF%EF%BC%88%E4%BD%BF%E7%94%A8%E6%B5%8B%E8%AF%95%E5%B7%A5%E5%85%B7%EF%BC%89%E4%B8%8E%E6%9C%8D%E5%8A%A1%E5%99%A8%E7%AB%AF“>

  1. 变化的规模。 通过客户端部署部署的大规模DOM操作可能会导致用户体验缓慢且出现问题。 测试中涉及的站点版本之间的差异越大(如保留完全不同的主页设计的保留),服务器端交付的意义就越大。
  2. 目标的特异性。 测试工具将用户数据与CRM数据相关联,以实现更精细的定位 服务器端分段可以限于匿名用户的更广泛属性,例如位置和设备类型,这使得难以测试针对目标狭窄的受众的更改。

在某种程度上 – 例如,对于Pinterest每月25亿用户 – %E6%9E%84%E5%BB%BA%E5%AE%9A%E5%88%B6%E5%B9%B3%E5%8F%B0%E5%8F%AF%E4%BB%A5

《保持团体:测试或虚假偶像的黄金标准?》
Pinterest建立了自己的A / B测试平台,支持1,000多个同步测试。 ( %E5%9B%BE%E7%89%87%E6%9D%A5%E6%BA%90“>

也许最重要的是,有利可图的实施取决于了解一个保留小组何时改进网站 – 以及什么时候它是一个昂贵的贴面来隐藏测试过程中的不信任。

当坚持工作

1.对于大规模的变化

到网站。 实施的变更越昂贵, 实施使用保留组的理由就越大。

事后坚持不可逆转的改变毫无意义。 但是提前测试以验证长期效果。 “随着风险上升,[坚持]的可能性也会上升,”安德伍德总结道。

通常,安德伍德说,营销团队要求坚持不懈地验证广泛的网站变更提案。 对于那些签署投资的人来说,坚持其计划的长期价值的坚持是有说服力的。

团队优先事项。 Pinterest增长交通工程主管约翰•伊根(John Egan)同意安德伍德(Underwood) – 一项涉及更大变化的测试值得更多(或至少,更长)的审查,这是一种坚持不懈的追求。

但网站开发成本并不是唯一需要考虑的成本。 正如伊根所解释的那样,当“有一项实验取得巨大成功,并且因此可能会导致团队战略转变为真正在该领域翻倍的情况时,坚持也是有道理的。”

根据伊根的说法,在这种情况下,坚持通常会持续三到六个月。 这个长度是“足够的时间让我们相信这种新策略或策略确实会带来长期结果,并且不会导致短期飙升,但长期是净负值。”

2.测量不可跟踪的

Egan承认,虽然Pinterest的标准是坚持不懈的,但“我们只对一小部分实验进行了坚持测试。”

对于Pinterest,主要用例是:

通过跟踪衡量难以完全衡量的事物的影响。 例如,我们会定期执行保留,我们会在一周或一个月内向少数用户关闭电子邮件/通知,以查看参与电子邮件/通知的启动程度及其对用户长期保留的影响。

Egan %E5%9C%A8Medium%E4%B8%8A%E8%AF%A6%E7%BB%86%E4%BB%8B%E7%BB%8D%E4%BA%86%E8%BF%99%E6%A0%B7%E4%B8%80%E4%B8%AA%E5%AE%9E%E4%BE%8B%E3%80%82″ b>

《保持团体:测试或虚假偶像的黄金标准?》
徽章数量推动近期升力,但这种升力会持续吗? 伊根的团队使用了一个支持小组来查明。 ( 图片来源

尽管如此,Egan还是想知道,“长期有效的徽章是否有效,或者用户疲劳是否会最终产生并让用户免疫?”为了找到答案,Pinterest创建了一个1%的保留组,同时将更改推广到其他组织。用户百分比。

结果? 最初7%的涨幅在一年内逐渐下降至2.5% – 仍然是正面的,但不如预测的短期结果那么显着。 (随后对平台的更改将升力提升至4%。)

《保持团体:测试或虚假偶像的黄金标准?》
经过一年多的时间,徽章组的表现继续优于保持组,尽管没有初步测试结果显示的那么大。 ( 图片来源

Egan的内容很明确:“一般情况下,如果对某个功能的长期影响有任何疑问,应该使用保留组。”

3.提供机器学习算法

今天,谷歌搜索“保持群组”更有可能产生培训%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%AE%97%E6%B3%95%E7%9A%84%E4%BF%A1%E6%81%AF%EF%BC%8C%E8%80%8C%E4%B8%8D%E6%98%AF%E9%AA%8C%E8%AF%81A” b>

正如Egan所解释的那样,对机器学习算法的坚持,“收集算法的无偏训练数据,并确保机器学习算法继续按预期执行。”

在这种情况下,保留是关于回顾窗口的异常值:“ 机器学习算法的保留永远运行。

这些用例是有意义的,但都带来了成本,这可以迅速成倍增加:

  • 团队花时间确定一个保留段。
  • 团队花时间维护网站的保留版本。
  • 部分受众未看到更好地测试的网站更改。

在某些情况下,保留小组的理由不是来自对严格测试的承诺,而是来自方法上的不信任。

当坚持更大的问题

负责trsdigital%E7%9A%84%E8%92%82%E5%A7%86%E6%96%AF%E5%9B%BE%E5%B0%94%E7%89%B9%E9%80%9A%E5%B8%B8%E2%80%9C%E8%AE%BE%E7%BD%AE%E6%B5%8B%E8%AF%95%E7%A8%8B%E5%BA%8F%E6%88%96%E6%8B%AF%E6%95%91%E5%AE%83%E4%BB%AC%E3%80%82%E2%80%9D%E4%BB%96%E6%8C%87%E5%87%BA%EF%BC%8C%E5%90%8E%E8%80%85%E6%9B%B4%E5%B8%B8%E8%A7%81%E3%80%82″>

作为一名顾问,他经常直接与C-Suite会面,这是许多内部优化团队不喜欢的特权。 这种访问使他对使用保留持怀疑态度:“ 有了坚持,’为什么?’的回答? 似乎是’我们不相信我们的测试。 “”

斯图尔特并不是一个成熟的逆势而已。 正如他告诉我的那样,他认识到保持组的好处是从新奇效应中识别下降,监控测试的累积效应以及之前详述的其他基本原理。

但斯图尔特经常继续说道,坚持不懈地支持团队在关系上不支持他们的过程的合法性:

我理解[CEO]想要什么。 但测试没有给你答案。 它为您提供了一个概率,即您做出的决定是正确的。 每个人都是如此有用。 但是如果你构建一组问题,那么学习和避免风险的第n个累积效应是值得的。 这是基于信仰的部分。

换句话说,有效的测试过程减少了对保持的需求。 斯图尔特说,运行这些测试的是:

大量的金钱和努力以及警告[推迟]向企业解释它的任何责任。 为了证明商业价值,您应该以其他方式证明这一点。

鉴于机会成本,这尤其正确。

坚持的机会成本

测试资源有限,使用资源进行保留会降低测试速度。 正如%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%9A%84Jeff” bezos>所说:“我们在亚马逊的成功取决于我们每年,每月,每周,每天进行多少次实验。”

由于管理保留群体的复杂性,机会成本可能呈指数级上升,而企业往往低估这些群体。

斯图尔特有一个类比:想象一个池塘。 将一块大铺路石扔进池塘。 测量涟漪的大小和效果有多难? 不是太难。

《保持团体:测试或虚假偶像的黄金标准?》

现在想象把一把鹅卵石扔进海里。 每块鹅卵石有什么影响? 你如何解释不间断的波浪? 或者调整您对潮汐的估计? 还是在飓风期间?

在市场营销中,难以衡量每个鹅卵石影响的混杂因素(阅读:测试)包括离线营销活动或宏观经济变化。

保持小组是否仍能提供答案? 是。 但是以什么代价? 正如斯图尔特所问: 如果你的控制不是很好的控制,那么统计确定性的投资回报率是如何测量到小数点后三位而不是两位?

在某一点上,您还需要包含另一个变量: 使用保留来衡量ROI对ROI的影响 而且,所有这些都假设创建一个保留组是可行的。

可行性的错觉

没有真正的坚持, ”斯图尔特说。 “即使在控制器上,也有一些人使用不同的设备。”(更不用说,我们的CXL优化总监EdgarŠpongolts补充说,用户使用VPN和Incognito浏览器。)

Holdouts加剧了多设备测量的挑战:测试运行的时间越长,有人删除cookie并最终从“无测试”到“测试”段越过。 并且每一次限制%E6%A0%B7%E5%93%81%E6%B1%A1%E6%9F%93%E7%9A%84%E5%8A%AA%E5%8A%9B%E9%83%BD%E4%BC%9A%E5%A2%9E%E5%8A%A0%E6%88%90%E6%9C%AC”>

假设您想要沿着兔子洞去确定%E6%B5%8B%E8%AF%95%E8%AE%A1%E5%88%92%E7%9A%84%E6%8A%95%E8%B5%84%E5%9B%9E%E6%8A%A5%E7%8E%87″>

您需要隐藏并行营销团队的所有测试结果,并且由于网站永远不会是静态的,因此允许他们根据直觉来更改保留版本。 斯图尔特向管理人员介绍了这种情况:

我们实际需要的是一个包含我们所有坏主意和好主意的坚持。 它并没有吸引观众 – 它正在运行一个网站而没有正在进行更改的人看到任何测试结果。 我们为什么要这样做?! 我完全赞同。

斯图尔特没有提出他的论点,以避免所有使用坚持。 相反,他的目的是揭露经常需要它的被误导的动机。 每个测试结果都提供了%E6%A6%82%E7%8E%87%EF%BC%8C%E8%80%8C%E4%B8%8D%E6%98%AF%E7%A1%AE%E5%AE%9A%E6%80%A7“>假装假装使用保持组,他们对困扰其他测试的模糊性免疫是天真和浪费的。

坚持不让分析师免于与管理层对话,管理层也不应该使用保留结果来“赶上”团队或代理商,因为测试结果不时无法兑现其最初的承诺。

“这不是关于数学的,”斯图尔特总结道。 “这是关于人民的。”

结论

“你能轻松,廉价地和足够的观众来做吗?”斯图尔特问道。 安德伍德和伊根已经做到了,但并不仅仅因为测试效率。

两者都获得了谨慎部署保留的自主权。 他们在测试后的工作测试结果,数月和数年,继续落在他们最初的预测范围内 – 建立了公司对他们的过程的信心。

对测试过程的自上而下的信任关注于对其正确任务的使用:

  • 发掘短期测试定期掩埋的容易逆转的误报。
  • 在投入资源之前确认高成本变更的长期价值。

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注