bts防弹少年团演唱会

bts防弹少年团演唱会

如何最大限度地降低A / B测试有效性威胁

《如何最大限度地降低A / B测试有效性威胁》

你有一个A” b> ,一个经过充分研究的假设和一个95%置信度的获胜测试。 下一步是宣布胜利者并推动它,对吧?

没那么快。

有些因素会威胁到您的测试的有效性,而您甚至没有意识到这一点。 如果它们无法识别,您可能会根据不良数据做出决策。 [推特!]

什么是有效性威胁?

很简单,有效性威胁是威胁A” b>结果有效性的因素。

统计信息中出现两种类型的错误,类型I和类型II。 如果在不存在差异或相关性时发生类型I错误。 如果在确实存在差异或相关性时发生类型II错误。

《如何最大限度地降低A / B测试有效性威胁》
图像来源

有效性威胁使这些错误更有可能发生。

为了理解有效性威胁,您必须​​首先了解不同类型的有效性。 当然,有许多,但转换优化的三种最常见(和相关)的有效性类型是:内部有效性,外部有效性和生态有效性。

如果可以证明原因出现在效果之前并且两者相关,则它在内部有效。 如果结果可以超出单个测试的范围,则它在外部有效。

通常,内部和外部有效性相互作用。 使测试内部有效的努力可能会限制您将结果推广到单个测试之外的能力。

生态有效性表明结果在现实世界中的适用性。 许多正式的,基于实验室的测试被批评为没有生态学上的有效性,因为它们是在人为控制的环境和条件下进行的。

是的,但这不会影响我,对吗?

当然它会影响你。 有效性威胁会影响运行测试的任何人,无论他们是否意识到这一点。 仅仅因为测试结果看起来具有决定性,并不代表它们。

例如, 复制黑客几年前在其主页上进行了一次测试 。 他们决定优化其网页的这一部分,以“今天提高您的转化率”点击次数…

《如何最大限度地降低A / B测试有效性威胁》

在前两天,结果非常上下。 仅仅六天之后,他们的测试工具就以95%的信心宣布获胜。 由于它还没有整整一周,他们让测试运行了一天。 一周后,该工具宣布升幅为23.8%,信心为99.6%。

《如何最大限度地降低A / B测试有效性威胁》

似乎是一个确定的胜利,对吗? 嗯,它实际上是A / A测试,意味着控制和治疗完全相同。

测试工具无法为您解释所有有效性威胁,这意味着您可以获取洞察力并将未来的测试基于不确定或无效的结果。 由于有效性威胁,这些类型的结果可能并且确实会发生在您身上。

(你还不知道。)

我如何消除有效性威胁?

简单的答案是你不能完全消除有效性威胁。 它们确实存在并将永远存在。 它不是完全消除有效性威胁,而是关于管理和最小化它们。

正如Angie Schottmuller详细解释的那样,在测试之前识别有效性威胁很重要……

《如何最大限度地降低A / B测试有效性威胁》Angie Schottmuller ,成长营销专家

“最大限度地减少数据’污染物’以优化完整性是困难的部分。 预先进行头脑风暴和审查可能破坏测试有效性的任何技术和环境因素/变量的列表。

专业提示:尽可能与您的活动团队(例如PPC,SEO,IT,品牌等)合作,以获得最佳库存和理解测试风险,并获得全面的测试支持。 如果他们预先参与,团队将不太可能实施变更(“测试威胁”),并且它提供更多的眼睛来监控意外的“污染物”,如竞争对手的促销活动,直接邮件活动,甚至区域天气因素。

我尝试确保团队在测试期间详细记录所有已批准或意外的更改。 (例如,PPC活动管理用于排除/添加关键字或广告位置。)有关变更的质量和及时的团队沟通是必不可少的,因为某些更新可能会使测试有效性无效。 学习快速和适应性比进行无知和愚蠢更好。

注意:在清点测试威胁变量之后,可以得出结论,计划的测试会产生(无效的)不确定的结果。 并发活动,技术升级,假期或其他重大事件可能会带来太多风险。 最好在测试之前认识到这一点。 最低限度地利用它作为展示测试固有风险的机会,以及迭代测试和多种方法(定量和定性)验证假设的必要性。“

A / B测试总是存在风险,因此在测试之前,请执行以下步骤:

  1. 在整个团队的帮助下,清点所有威胁。
  2. 让整个团队了解测试,以便他们不会产生其他威胁。
  3. 如果威胁列表太长,请推迟测试。

当无效结果的风险如此之高时,为什么要浪费测试流量呢? 它没有意义。 相反,等到你可以运行测试并收集确凿的见解。

请记住,作为优化工具,您的主要目标是发现可以应用于您业务的所有领域的结论性见解,而不仅仅是赢得个别测试。

《如何最大限度地降低A / B测试有效性威胁》Angie Schottmuller ,成长营销专家

‘具有很大的[测试意义]力量带来了很大的[有效性风险]责任。”
– 本杰明帕克(蜘蛛侠的叔叔),改编自@aschottmuller

相应地进行平衡,并专注于学习自信的洞察力,而不仅仅是实现理想的单一测试结果。 ”

8种常见的有效威胁秘密破坏你的A / B测试

有效性威胁很普遍,并且有许多不同的形式,使它们难以识别。 但是,有一些常见的有效性威胁比其他威胁更容易发生。

1.收入跟踪

插入测试工具javascript片段很简单。 但是,如果您运营电子商务网站,则还需要为测试工具实施收入跟踪。 这是经常出错的地方。

CXL高级转换分析师Leho Kraav对收入跟踪实施有这样的说法:

《如何最大限度地降低A / B测试有效性威胁》Leho Kraav ,CXL

“我看到的主要错误是……

1.没有多种工具可以计算收入/交易,并且报告结果的格式甚至可以让您的母亲了解事情是否会增加。 任何工具都可能弄乱一些东西,所以你需要备份。 基本组合:销售后端,Google Analytics电子商务和Optimizely。 主要问题:可理解,一致的​​跨工具报告。

2.使用多个支付网关时,消除跟踪标记触发。 示例:网关将人们发送到不同的感谢页面,其中不同的标签触发,代码中的网关IPN处理的错误返回等。

3.根据应用程序结帐流程的复杂程度,可能会多次意外触发收入跟踪。 根据工具的不同,这可能会人为地夸大您的收入数字。 再一次,使用多个工具有助于验证任何一个工具的定期收入报告。

4.没有注意特定格式工具想要交易价值。有些人想要分值,一些美元价值。 幸运的是,除非你完全不注意,否则很容易注意到这一点。“

如何管理……

  • 始终将您的测试工具与Google Analytics集成,以查看收入数字(大多数)是否匹配。
  • 如果您发现存在巨大差异(2倍差异并不罕见),则表示您遇到了问题。 立即停止测试,解决问题并重新开始测试。

2.闪烁效应

闪烁效应是指您的访客在治疗加载前短暂地看到控件。 这可能由于各种原因而发生,例如……

  • 您的测试工具使用的异步脚本,旨在加快加载时间,但带来了不幸的副作用。
  • 您的整体网站加载速度很慢。
  • 您的测试工具是通过Google跟踪代码管理器加载的,而不是直接在页面上加载,您无法控制加载顺序。
  • 在测试工具脚本之前加载了太多其他脚本。
  • 测试元素会触发禁用或更改测试工具代码的操作。
  • 您的测试工具代码已添加到某些页面和
    在别人身上。

如何管理……

  • 目标是将闪烁减少到0.0001秒,以便人眼不会检测到它。
  • 优化您的网站以提高速度。 (这是如何做到的。)
  • 只需尝试拆分URL测试。
  • 从跟踪代码管理器中删除您的A / B测试工具脚本。

3.浏览器/设备兼容性

你的治疗方法不断失败,你无法弄清楚原因。 如果您实际上正在测试正确的东西 ,那么测试失败的最常见原因是糟糕的代码(即变体在所有浏览器版本和设备中都不会显示/正常工作)。

如果它在访问者正在使用的浏览器/设备组合上不起作用,则会影响测试的有效性(即非工作变体将丢失)。

使用可视化编辑器时会发生很多事情。 (除非您只是进行复制更改,否则不要使用可视化编辑器。)生成的代码通常很糟糕,您可能正在改变您不想要的元素。

如果没有适当的质量保证(QA),您将无法启动测试。 在开始实验之前,您需要有人花时间对每个变体进行跨浏览器和跨设备测试。

例如…

  • 不要只看你的计算机上的浏览器处理。 IE9和IE10中的处理可能显示不正确,您个人从未使用过。 不幸的是,如果20%的访问者使用IE,那就是一个问题。
  • 同样,你可以在iPhone上测试治疗方法,但没有注意到它在Android上都很时髦。

《如何最大限度地降低A / B测试有效性威胁》

如何管理……

4.样本量

基本上,当您达到90%显着性时,测试不会产生有效结果,您必须继续测试,直到您达到必要的样本量。 Peep撰写了关于停止A / B测试的文章 ,该测试涵盖了深入的样本量。 如果你有几分钟,我建议你仔细阅读。

《如何最大限度地降低A / B测试有效性威胁》

例如…

  • 如果您运行A / A测试(如复制黑客所做的那样),两个变体完全相同,您可能会在实验中看到暂时的重大影响…误报。 意义不是停止因素,样本量是。
  • 数据捕获是指您多次运行测试并反复重新分析数据。 通常,这是由于确认偏差而发生的 。 你正在“钓鱼”取得成果。 不幸的是,通过将每个测试视为独立测试,您可能会遇到误报。
  • 成熟也发挥作用。 您运行测试的时间越长,您开放的有效威胁就越多,因为您的样本有更多机会成熟(即更改)。

如何管理……

  • 在采样正确的样本量后停止测试。 使用CXL的AB%E6%B5%8B%E8%AF%95%E8%AE%A1%E7%AE%97%E5%99%A8“>
  • 将数据捕获考虑在内并调整您的显着性水平以补偿您正在运行的测试数量。
  • 必要时运行测试(即直到达到样本量)并且不再延长。 这将有助于尽可能避免成熟。

5.选择偏见

您的样本不仅需要足够大,而且还需要代表您的整个受众。 今年早些时候,我写了一篇关于样本污染的文章,其中详细介绍了代表观众的样本。

假设您的网站流量较低,为了在合理的时间内运行实验,您决定获得付费流量。 因此,您启动了PPC广告系列,以便为该网站带来付费流量。 测试结束了,你获得了胜利 – 提升了30%!

您停止PPC活动并实施获胜者,但您没有看到销售额增长30%。 是什么赋予了? 这就是行动中的选择偏见。

您认为您的PPC流量与其他流量的行为方式相同,但可能不会。

同样,如果您仅使用最忠诚的访客或只有女性或仅年度超过75,000美元的人进行测试,则您没有代表性样本。 这意味着您的结果不能一概而论。

如何管理……

  • 测试时,请使用代表性样本。 包括来自所有来源的流量,一周中的每一天,新流量和返回流量等。
  • 不要从“不寻常”的来源获得流量。

6.星期几和一天中的时间

星期六的流量与星期三的流量不同。 同样,您的流量在下午1点的行为与上午1点的行为不同

例如…

  • 周六晚上,由于周末允许的额外空闲时间,也许您的访问者可以更长时间地查看您的网站。
  • 周日晚上,也许他们很快就会反弹,因为他们是第二天早上必须为上学做准备的父母。
  • 周二下午,当人们吃午饭并浏览推特时,你可能会看到交通量激增。
  • 周四早上,由于您的每周简报,也许您看到转化次数增加。

在一周的不同日期和一天的不同时间,您的流量表现不同。 他们处于不同的环境,不同的心态。 当上下文改变时,他们的行为也会改变。

例如,如果您从周一到周五进行测试,即使达到显着性,您也会得到不确定的结果。 工作日流量的真实情况不能完全准确地推广到周末流量。

《如何最大限度地降低A / B测试有效性威胁》

如何管理……

  • 以整周增量运行测试,以便包括来自一周中的每一天和每天的每个时间的数据。

7.季节,环境和天气

影响测试有效性的其他外部和看似无关的因素包括:季节,访问者访问您网站时的设置,天气,甚至媒体。

例如…

  • 如果您是博主,假日季节可能会导致流量减少。 如果你是一个电子商务网站,它很可能是你一年中最被贩运的时间。
  • 如果您是B2B产品或服务,您可能会在工作时间,访问者在办公室并考虑工作时看到更多转换。
  • 如果您是B2C产品或服务,您可能会在工作时间之外或中午左右看到更多转换,当时人们在家并考虑他们的个人生活。
  • 如果出现大风暴,你会出售抗风暴服务,转换将会飙升。 这是显而易见的,但专家表示,他们可以根据天气以惊人的准确度预测消费者购买方式(以及什么)
    • 在西雅图,1到3英寸的降雨差异对购买什么类型的啤酒有重大影响。 在洛杉矶,风是影响啤酒销售的因素。
  • 如果有重大新闻报道,如暗杀或失踪的飞机或一群获救的难民,它可能会对你的一个变种产生偏见,这可能在两周或两个月内不存在。 当然,它也会影响交通和消费者的兴趣。
    • 我们这一代最大,最迷人的新闻报道之一是OJ Simpson试验。 在试验开始时,“商业信息营销报告”通讯报道销售额大幅下降,因为消费者的注意力在其他地方。

如何管理……

  • 如果您在假期期间进行测试,请知道您收集的数据仅与该季节相关。 试图在12月底将测试结果应用于1月或2月将无效。
  • 查看您的年度数据并识别异常情况(流量和转化次数)。 每年春天下雨时,你的啤酒销量是否会飙升? 还是在秋天的时候风更大? 在运行测试时考虑到这一点。 在这些时期内进行的测试结果不能一概而论地完全准确地推广到一年中的其他时间。
  • 了解流行文化和媒体。 记录主要新闻故事。 如果您看到一个重大的,意外的峰值,请考虑它可能是媒体报道的结果。 时间排队吗? 它与您的网站和受众群体相关吗?

8.竞争和内部运动

正如上面提到的Angie,由于与您的测试无关的竞争和内部广告系列,您的转化次数可能会增加。

例如…

  • 如果您的营销经理正在运行PPC广告系列,您会看到比平常更多的流量。 可能,该流量的行为不会像您通常的流量那样可预测。 PPC广告系列的结果可能会影响您的A / B测试,导致结果无效。
  • 如果您的竞争对手正在投放主要广告系列,您的流量也会发生变化。 也许你会看到他们前往你的竞争对手的网站有所下降,或者你可能会看到随着行业兴趣的激发以及消费者对比商店的增加。

如何管理……

  • 在进行测试之前,请与您的团队联系。 在此期间是否有任何营销活动? 那段时间是否有任何技术升级? 在运行测试之前记下清单。 如果您认为威胁的数量太高,请暂停测试。

结论

许多A / B测试都受到有效性威胁的困扰,但大多数都可以被管理和消除。 [推特!]

结果? 更准确的测试结果和更有价值的见解。

以下是删除常见有效性威胁的分步过程…

  1. 始终将您的测试工具与Google Analytics集成,以查看收入数字(大多数)是否匹配。
  2. 将闪烁减少到0.0001秒,以便人眼不会检测到它。 优化网站的速度,尝试拆分URL测试,从跟踪代码管理器中删除您的A / B测试工具脚本。
  3. 始终为每个设备和每个操作系统进行质量保证。
  4. 针对每种类型的设备单独运行测试。
  5. 只有在采样了正确的样本量后才能停止测试。
  6. 将数据捕获考虑在内并调整您的显着性水平以补偿您正在运行的测试数量。
  7. 必要时运行测试(即直到达到样本量)并且不再延长。
  8. 测试时,请使用代表性样本,不要从“不寻常”来源获取流量。
  9. 以整周增量运行测试,以便包括来自一周中的每一天和每天的每个时间的数据。
  10. 如果您在假期期间进行测试,请知道您收集的数据仅与该季节相关。
  11. 查看您的年度数据并识别异常情况(流量和转化次数)。 在运行测试时考虑到这一点。
  12. 了解流行文化和媒体。 记录主要新闻故事。
  13. 在进行测试之前,请与您的团队联系。 在此期间是否有任何营销活动? 在运行测试之前记下清单。

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注