bts防弹少年团演唱会

bts防弹少年团演唱会

使用可重复模式预测获胜A / B测试

《使用可重复模式预测获胜A / B测试》

如果你曾经进行过一次非常值得信赖和积极的A” b> ,那么你很可能会记住它,并希望将来再次尝试它 – 这是理所当然的。 测试是艰苦的工作,许多实验失败或最终无关紧要。 尝试利用任何现有知识获得更多成功和更少失败是最佳选择。 在我们自己的实践中,我们开始这样做。

2017年,我们系统地开始将类似的测试结果归类为模式,以帮助我们更好地预测更多的获胜测试。 2017年,我们进行了51次a / b测试,纯粹是模式驱动的 这些测试中有71%是积极的 在停止时。 我们现在越来越清楚,模式是预测测试结果的强大工具,我想与您分享我们的方法。 以下是我们遵循以确定和使用模式以获得更高赢率的过程。

目标:优于50/50随机性

首先,如果我们的目标是提高我们的a / b测试结果预测率,那么我们需要建立一个衡量标准,以确定成功预测的真正含义。 对此最简单的答案是二元 – 即应该是正面还是负面的测试,最终是正面还是负面预测。

《使用可重复模式预测获胜A / B测试》

换句话说,我们只是想做比随机更好的事情。 假设我们进行了完全随机的实验,我们可能会预计大约一半的结果会结果为正,而另一半则为负。 从这个角度来看,我们的首要目标是谦虚:为了显示预测力量,我们的模式需要帮助我们击败随机性并获得比50/50更好的赢/输率。

模式:预测的核心要素

我将转换模式定义为易于重复的UI更改,使我们能够快速预测和重复效果。 鉴于一种模式,我们可以在战术上发现一个机会(一个微弱的标题,太多的形式领域,一个不真实的照片,隐藏在下拉中的选择的可见性差等),并采取快速行动来利用其可能的影响。 这种模式的预测强度来自一个简单的假设:给定的变化在具有相似效果的情况下表现得越多,它在将来再次表现的效果就越多。 因此,模式最终从多个测试结果中获得预测强度 – 越多越好。 使这些预测成为可能的模式元素包括:

  • Change(s) – 定义模式的一组属性(一个或多个),并且足够抽象以使它们可重复。 通常,更改可能涉及删除,替换或添加UI的新内容。 通常在两个屏幕截图的帮助下描绘更改:A(之前或控件)和B(之后或变体)。
  • 测试结果 – 每个模式从测试结果中获得预测强度(越多越好)。 测试反过来为我们提供了两个关键指标:可重复性和中位数效应。
  • 重复度 – 这是衡量模式在获胜(正面)结果中测试的频率,减去任何负面测试结果的数量。 该分数越高(无论是正面还是负面),该模式在未来的实验中反复获胜或失败的可能性就越大。 对于没有任何测试数据的模式,其重复性得分为中性0。
  • 中位数效应 – 中位数效应告诉我们,对未来测试的类似变化可能会产生什么样的影响。 它是根据与模式相关的每个测试的最深层影响计算出来的(例如:注册,销售或销售等最有意义的测量)。 我们对给定模式的测试越多,中值效应应该越准确。

这是一个样本%E6%97%A0%E4%BC%98%E6%83%A0%E5%88%B8%E5%AD%97%E6%AE%B5%E6%A8%A1%E5%BC%8F%E4%BB%A5%E5%8F%8A%E6%88%91%E4%BB%AC%E5%A6%82%E4%BD%95%E5%B0%86%E6%89%80%E6%9C%89%E8%BF%99%E4%BA%9B%E5%85%83%E7%B4%A0%E7%BB%84%E5%90%88%E5%9C%A8%E4%B8%80%E8%B5%B7%EF%BC%9A”>

《使用可重复模式预测获胜A / B测试》

技术说明:为了以不同的置信度补偿测试结果,我们将完整的 1重复性点 归因 于高度显着的测试结果(p值0.5分,并且对于任何无意义的结果(p值> 0.25)或没有完整样本量数据的测试结果, 0.25分。

好,坏,好的模式

随着模式积累测试结果,他们很快就会摆脱无辜的中立。 那些表现得更积极而非积极性的模式,获得可重复性程度(再次获胜的可能性更高)。 其他模式可能会同样获胜和失败,保持接近0并暗示成功概率较低。 最后,那些往往会经常失去的模式会产生负面的可重复性,这表明它们毕竟不是那么好的想法。

因此,更好的模式可以通过两个标准来定义:它们包含高度的可重复性和高中值效应。

生成新模式

模式创意可以来自任何地方。 然而,模式思想的来源并不重要,因为所有新模式都是相同的(中性重复性为0)。 相反,它是测试结果,提供具有预测能力的模式,对它们进行负面或正面收费。 考虑到上述情况,我们可以通过以下方式生成新模式:

  • 想象力,笔和纸 – 您的经验和创作过程可以成为有趣的模式创意的宝贵来源。 有时我们只是拿一张纸写下我们的想法 。 我们不要过于担心强迫自己提出完美的想法。 我们知道,无论探索模式如何,它们的潜力最终都会在测试时通过。
  • 您自己的A / B测试 – 当您完成运行a / b测试时,这是将更改(或一组更改)捕获为模式的绝佳机会。 无论效果如何,信心程度如何,每个a / b测试都包含有可能在未来重复的有价值数据。 在这种情况下,您可以设计一个新模式,并且已经拥有支持或反对模式的初始数据 – 为您的模式提供优势。
  • 其他人的A / B测试 – 有公司共享的a / b测试,这些可能是模式的另一个有价值的起点。 由于存在发表偏倚(倾向于报告积极因素而不是否定因素),因此相信其他人的结果会更加困难。 在其他时候,公布的结果也缺乏详细的样本量或转换数据,这使得评估质量变得更加困难。 在这种情况下,我们归因于较低的重复性分数(仅0.25)以补偿缺乏完整数据。
  • 客户研究 – 任何真实客户或用户表达其需求的定性研究都可以成为新模式创意的宝贵灵感来源。 这包括任何方法,如:调查,可用性研究,访谈,屏幕录制等。
  • 复制 优化 网站 – 最后,关注您知道正在运行实验并积极优化的网站总是值得的。 有可能无论他们实施了哪些改变,都经过了某种实验,因此未来可能会有更高的成功机会。

使用模式优化网站

第1步:寻找机会

当我们开始使用模式优化一组屏幕时,我们的重点是确定尽可能多的优化机会。 我们通过定义一组屏幕和指标来改进。 与此同时,我们提醒自己所有现有的模式 ,通过一系列共同的变化来激励我们自己。 我们也可能按页面类型(例如: 结帐模式)或公制(例如: 引导模式 )查找更具体的模式类型。 开始这个过程的顺序并不重要。 重要的是让屏幕,目标指标和模式在您面前可见,以便您看到并抓住机会 – 越多越好。

实际上我们可能会使用Adobe Illustrator (任何屏幕注释软件都很好)来列出相关的屏幕截图,并在侧面注释它们,如下所示:

《使用可重复模式预测获胜A / B测试》

如果我们有一个我们还没有模式的想法,我们仍然会捕获它(当然没有任何数据引用)。

第2步:优先考虑重复性和中位数效应

一旦我们列出了足够的想法(通常是10到100),我们就会权衡它们,看看哪个成功率最高,影响最大。 要做到这一点,对于基于模式的每个想法,我们都会查看其可重复性和中位效应,并将其写在理念旁边。 通过这样做,我们正式使用真实数据进行预测,而我们的优先想法可能会开始如下所示:

《使用可重复模式预测获胜A / B测试》

或者,我们也可以为每个想法添加主观信心。 如果我们选择这样做,我们将信心限制在-3 (最高信心,即该想法将为负)和+3 (最高信心该想法为正)之间。 如果我们有多个团队成员表达他们的主观信心,我们会平均这些值来挖掘人群情报。

第3步:设计测试和探索变化

一旦我们的想法被优先考虑并且我们开始看到最具潜力的东西,我们将继续进行更详细的概念设计。 看一个模式并看到A和B,我们不想误导这是应用给定模式的唯一方法。 对于每一个A和B,有一个C,D,E和F就在拐角处等待被发现。 这是我们发挥创意并产生视觉选择的地方。 我们甚至可以查看过去的测试,以检查模式工作的更具体的示例以及失败的位置。

并非所有草拟的想法都被选中进入测试,但我们肯定希望有更多选择。 我们的最终视觉是一个坚实的测试概念,包含一系列变化(1或多个),具有将进行测试的确切变化(1或多个),类似于:

《使用可重复模式预测获胜A / B测试》

注意:您始终可以选择测试创意或在此阶段直接实施。 如果有足够的信心(主观或足够的积极测试),我们会尊重跳过测试并直接推出生产(实施)变更的决定。 以这种方式利用知识,虽然龋齿风险,是一种有效的优化举措(取决于业务背景:统计敏感性,网站流量,预测影响,置信度等)。

第4步:反馈循环和纠正数据

当我们决定基于模式运行测试时,最后一个元素对于完成该过程至关重要 – 我们使用新结果更新模式。 更具体地说,重复性得分都得到更新(正面或负面),中值效应也会变得更好或更差。

对于任何独立于效果且独立于显着程度的测试结果,都会发生这种情况。 无论结果如何,记住并学习任何结果都很重要(除非存在使实验无效的技术测试设置问题)。 这种反馈机制使得每个新测试结果的未来预测越来越准确,进一步将更好的模式与弱模式分开。

模式是否有效? 51 A / B测试预测的有希望的结果

但这种方法如何在真实项目中发挥作用? 为了评估模式是否具有任何预测能力,2017年我们开始在众多优化项目中跟踪我们自己的预测。 我们运行并跟踪了51个严格模式驱动的a / b测试,这是我们发现的令人兴奋的结果。

在所有预测为阳性(具有任何正重复性评分)的51个实验中,36个实验在停止时结束为阳性。 这使得这些模式的预测率为71%。 以这种方式使用模式显然有助于我们摆脱随机性所暗示的50/50成功率。 因此,我们对模式(基于实验)持非常积极的态度,作为一种非常有效的方式来运行更多的获胜a / b测试,同时最大限度地减少工作量。 这符合客户的业务期望,他们以尽可能低的努力(最大ROI)实现最高影响力的结果。

《使用可重复模式预测获胜A / B测试》

做更多可重复的测试会导致更高的预测率吗?

还有一个关键问题我们可以问自己,以检查重复性是否是测试结果的可靠预测指标:更高的重复性评分是否会导致更积极的测试预测? 换句话说,如果一个模式更频繁地表现出来,这是否意味着它在未来的实验中有更好的机会再次表现? 为了回答这个问题,我们通过三组重复性分数来组织我们的预测(提醒:分数越高,我们支持模式的积极证据就越多)。 这是我们发现的:

《使用可重复模式预测获胜A / B测试》

我们看到一个明确的迹象表明,我们支持模式的证据越多,我们的预测率就越高。 我们的预测率随着重复性程度线性增加。 这是我们2017年最有希望的发现,有利于继续以这种方式识别和衡量转换模式 。 它也非常令人放心,因为它表明转换模式可以推广(在不同的网站上执行)。

从这些发现中我们可以更舒适地为我们的重复性评分添加一层含义。 我们可以随时调整它,因为我们收集更多数据并评估预测的准确性,但现在我们开始的是:

  • 重复性为0 = 可能赢或输
  • 重复性0 也许会赢
  • 可重复性1 可能胜利
  • 可重复性为3 非常可能会赢
  • 重复性为5 几乎可以肯定

结论

仅分析单独的a / b测试是有限的。 我们现在看到了看多个实验的价值。 以我们上面概述的方式使用模式是实现这一飞跃的众多方法之一。 我们的模式已成为记住多个过去实验的有力方式 – 这对于进行更准确的预测至关重要。 与去年相比,71%的成功率只是一个开始。 当我们运行并记住更多实验时,我们的工作应该变得更容易。 从过去的实验中提取概率最终将使我们能够进行更多的获胜和更高的影响力测试。

一些怀疑论者喜欢说,对一个网站有用的东西可能并不总是适用于另一个网站。 但是对于一个站点,另一个站点和另一个站点起作用的东西,更有可能在其他地方再次工作 – 记住并利用它。

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注