bts防弹少年团演唱会

bts防弹少年团演唱会

样品污染:您不知道的A / B测试问题

《样品污染:您不知道的A / B测试问题》

这是关于转换率优化的一个令人不安的事实:许多人在不知情的情况下运行不良测试。 他们根据误报做出决定,他们采取不一致的数据,他们避免了样本污染的问题 – 我可以继续。

例如,在温哥华的CTA会议上, 在线对话的 Bart Schutz走上舞台,要求400多名营销人员举手,如果他们知道样品污染是什么的话。 不到20人举手。 用Bart的话说,“如果你不了解样品污染,请停止测试。”

运行更好的测试的第一步是真正了解a” b>和抽样。 您的a / b测试样本是否足够大? 它有代表性吗? 这是偏见吗? 如果您不知道如何正确采样并保持数据的质量/有效性,那么您就是在浪费时间。

抽样101

什么是样本量?

嗯,这正是听起来的样子。 这是您在测试中需要多少访问者或转化次数。 提前计算样本量非常重要。 当您有95%的信心时,您不会停止,当您有足够的流量/转换以获得有效结果时,您就会停止。

如果在运行测试之前没有计算样本量,则会遇到错误的数据,甚至可能没有意识到。

那么,您如何计算所需的样本量? 只需使用CXL的样本量计算器或其他类似的计算器

《样品污染:您不知道的A / B测试问题》

您需要做的就是插入:您要运行测试的页面的当前转换率,最小可检测效果(您希望能够检测到多大的提升),以及显着性和功率级别(通常默认为95%和80%)。

谁应该在你的样品?

计算器可以进行数学计算并告诉您要抽样的人数,但他们无法告诉您抽样的人。 花一点时间考虑每周流入您网站的不同类型的流量以及它们的独特特征将如何影响您的测试结果。

1.工作日与周末交通

您周三的流量是否与星期六的流量相同? 可能是,一周中的某一天和一天中的时间会对访问您网站的人员类型产生影响。 人们在星期五晚上的心态与周一早晨不同。 您希望您的测试包含所有这些人。

《样品污染:您不知道的A / B测试问题》Angie Schottmuller ,成长营销专家

“从星期几和星期几的季节性因素来看,测试在整周增量中表现最佳。 在设定考试日期和时间之前,我会进行发现以更好地了解购买周期持续时间和目标受众日常情况(例如工作时间表,学校活动,儿童/成人就寝时间,双周/双月薪水等)。

2.交通来源

不同的流量来源以不同的方式与您的网站互动 。 打开Goog​​le Analytics,选择“获取”,然后选择“概述”。 请注意来自源的流量如何以不同方式表现和转换。

《样品污染:您不知道的A / B测试问题》

来自Google搜索的访问者的行为方式与来自Twitter广告的访问者的行为方式相同吗? 流量来源不是平等的,因此请确保您的样本包含来自所有来源的流量,或确保来自单个来源的测试结果不会应用于所有来源。

3.回归与新流量

第一次访问者的行为会与第三次访问者的行为方式相同吗? 第22次来访者怎么样? 第100次?

将访问者返回电子商务网站的时间比新访问者平均长3分钟 。 新访问者每次访问平均只查看3.88页,而访问者每次访问平均查看5.55页。

代表性样品

这里的关键是要有一个代表性的样本。 如果您没有考虑可以进入样本的不同类型的流量,您会注意到平均值的回归。

例如,假设您从周二到周四进行简单的A / B测试。 周三,您的营销总监开启了Facebook广告活动。 根据您的分析总监的说法,周六的流量会增加2倍。 最后,你会看到B中的升力,所以你可以直接推动该变种。

到了接下来的星期二,你不再看到那个升力……它已经回归平均值,因为星期二到星期四的样本没有代表性。

甚至几周可能会有所不同。

概述 :为了确保您有代表性的样本,运行测试至少2个商业周期。 对于大多数企业来说,这将是2-4周。

什么是样品偏差?

样本偏见仍然充满活力。 营销人员可以而且确实依附于他们的假设。 时间和精力用于收集数据,分析数据并提出假设。 很容易在情感上投入到结果中。 你希望你的假设是正确的。

在某些情况下,营销人员会提前停止测试或错误地分析结果以达到预期的结果。 通常,他们没有意识到他们正在篡改结果。 这就是为什么像Hyle for America的前端工程和优化总监Kyle Rush这样的专家会进行双盲实验。

在设计测试之后,Kyle要求团队中的其他人更改变体名称和数字,以便他也对结果视而不见。 他不能赞成他的假设,因为他不再知道哪个是控制。

在数据进入并进行分析后,他可以宣布获胜者。 只有这样他才能发现他的假设是否正确,从而消除了他的自然偏见。

什么是样品污染?

样品污染是任何不受控制的外部因素,会影响您的测试并导致无效数据。 这是一个相当广泛的定义,主要是因为有许多不同类型的污染。 不幸的是,许多营销人员甚至不知道存在污染,这意味着他们在不知不觉中根据无效的测试结果做出业务决策。

要确定您的测试是否受到污染,请运行四种最常见的样本污染类型。

1.长度污染

如您所知,时间是测试时的主要因素。 “我应该让我的试运行多长时间?”是我收到的最常见的A / B测试问题之一。

事实是,没有通用的测试长度。 以Malwarebytes的优化和分析经理Andrew Anderson为例。 当被问及他的考试时间有多长时,他回答说:

《样品污染:您不知道的A / B测试问题》安德鲁安德森 ,Malwarebytes

“我运行至少一周的一致数据。 通过关注图表并寻找主要的相对拐点,您可以更好地了解标准化,人口偏差以及代表性数据采样。“

对于正在使用高流量网站的安德鲁来说,一周的一致数据是代表性的样本。 对于大多数人来说,一周的数据将是一个方便的样本,而不是代表性的样本。 换句话说,大多数人需要运行他们的测试超过一周。

因此,虽然没有绝对值,但标准是两个完整的商业周期。 因此,大多数人不应该在不到两周的时间内进行测试。 为了有效性,四周甚至更好,特别是对于更复杂和昂贵的产品。

当您过早停止测试或测试运行时间过长时,长度污染就会发挥作用。 因此,如果您在达到显着性时停止测试,而不是在达到完整样本(例如400,000名访客)时停止测试,则会产生长度污染。

另一方面,测试运行的时间越长,外部因素(例如假期,技术问题,活动更改等)就越有可能影响您的测试,从而产生无效结果。

如何限制它:

  • 一致的数据非常重要。 如果您的样本包含异常(例如假期,季节性异常等),则表明您的行为不一致。 您的获胜变体可能不会在下个月产生相同的结果。 查找数据中的尖峰和陷阱,以确保代表性的数据样本。
  • 只在您需要时运行测试。 从数学上显着的样本量收集数据后,请调用它。 测试运行的时间越长,污染风险就越高(即环境变化)。
  • 避免在主要假期(例如圣诞节)进行A / B测试,这可能会导致结果偏差。 在这些时间(最有可能是强盗测试 )运行假日特定的测试活动会更好。

2.设备污染

80%的互联网用户拥有智能手机 ,但这对您来说不应该是新闻。 这可能是:91%的人使用他们的台式机/笔记本电脑浏览互联网,80%使用智能手机,47%使用平板电脑,37%使用游戏机,34%使用智能电视。 智能手表和腕带紧随其后。

《样品污染:您不知道的A / B测试问题》

关键是我们都拥有并使用多个设备来浏览互联网,这意味着一些访问者被包含2-3次因为他们已经切换了设备。

例如,如果访客A通过她的iPhone 5S登陆您的网站,然后两天后通过她的笔记本电脑登陆您的网站,那么她有50%的机会看到与她原来不同的变体。

还要考虑许多设备有多个用户。 家用电脑,共享iPad,共享游戏机 – 并非所有设备都是100%个人设备。

例如,假设Brian周一从家人的家用电脑访问您的网站,并且不进行转换。 星期三,布莱恩的弟弟布拉德从同一台家用电脑访问你的网站并进行转换。 您的测试平台已将这两个人视为同一个人。

如何限制它:

3.浏览器污染

浏览器污染与设备污染非常相似。 虽然我们大多数人都有首选浏览器,但最终还是会使用其他浏览器。 Chrome拥有观看美国Netflix所需的插件,但Safari具有iCloud集成功能。 再次,我们遇到了将访问者包括2-3次的问题,仅仅是因为他们已经切换了浏览器。

虽然没有关于人们在任何特定日期间在浏览器之间切换频率的可靠数据,但通常开发应用程序以使其更容易。 Objektiv允许开发人员和在日常工作流程中使用多个浏览器的任何人在默认浏览器之间轻松切换。

最后,如果你使用谷歌浏览器( 超过60%的人口 ),你知道隐身模式浏览(其他浏览器有类似的模式,但称之为其他)。 如果有人以隐身模式打开标签并访问您的网站,则不会使用现有Cookie,并且在标签关闭后不会保存新的Cookie。

因此,如果访问者稍后返回您的网站,她就会成为新访问者,并且再次有50%的机会看到与原来不同的变体。

如何限制它:

  • 正如您可以为每种类型的设备单独运行测试一样,您也可以为每个浏览器单独运行测试 – 但这是针对高流量网站的游戏。 也就是说,由于可用信息有限,因此可能会有更少的人定期在浏览器之间切换。
  • 您可以再次考虑Google Analytics Universal和已知ID。

4.饼干污染

所有这些污染的根源是饼干。 如果您不熟悉Web cookie,它是从网站发送并存储在访问者Web浏览器中的一小段数据。 它允许营销人员更准确地跟踪他们的样本行为。

《样品污染:您不知道的A / B测试问题》迈克尔·阿加德,Unbounce

“你的cookie基本上总是有被删除的风险。 您无法控制用户是否选择删除其Cookie。 就cookie过期而言,像VWO这样的工具的标准cookie持续时间为100天。 如果你正在运行测试,你不能在100天内得出结论,你真的需要回到绘图板,并根据实际的洞察力提出一些更好的假设。 ”

不幸的是,围绕删除cookie的速率的数据充其量是不稳定的。 大多数报告已经过时(大约在2005年),具有讽刺意味的是,没有代表整个互联网人口。

Lifehacker 进行了一次简单的民意调查,询问读者他们删除浏览器历史的频率。 以下是截至2015年9月23日的结果:

《样品污染:您不知道的A / B测试问题》

当然,这是一个相对较小的精通技术的人。 这是极不可能的, 整个互联网20%的人口删除其历史时,他们关闭浏览器。

2012年, Econsultancy发布了一份报告 (基于1,600名在线受访者),发现73%的受访者使用浏览器定期管理他们的cookie设置。 当被问及如果网站在访问时要求他们允许设置cookie时他们会说什么,只有23%回答是(60%回答“可能”)。

40%的受访者认为Cookie对网络不利。

无论确切的数字如何,测试运行的时间越长,访问者删除cookie的可能性就越大,污染样本。 根据Testing.Agency的 Ton Wesseling说法 ,仅仅两周就可以有所作为

《样品污染:您不知道的A / B测试问题》Ton Wesseling ,Testing.Agency

“我只说你每月至少需要1,000次转换,因为如果你的收入较少,你必须测试6到7周才能获得足够的流量。 在那个时候,人们删除cookie。 所以,你已经有样品污染了。 在2周内,您可以获得10%的人员删除cookie,这也会影响您的样本质量。“

如何限制它:

  • 不要让测试运行的时间超过必要的时间。 测试运行的时间越长,污染的机会就越多。 当您提前计算所需的样本量时,请确保您可以在4周或更短的时间内运行测试 – 否则污染可能会影响结果的可信度。
  • 有一些方法可以在不使用cookie的情况下跟踪访问者。 然而,它不那么主流,也不那么复杂 – 比如浏览器指纹识别(在欧盟宣布为非法)。
  • 人们开始开发像Evercookie这样的饼干替代品。 Evercookie非常持久,将数据存储在更多位置,并在删除数据后重新创建数据。

如何避免样品污染

1.确保数据的一致性

上面,Andrew讨论了一致的数据,这意味着您的数据不会受到巧合异常的影响。 从本质上讲,您的数据的行为与正常情况相同,不会受到异常峰值或陷阱的干扰。

《样品污染:您不知道的A / B测试问题》安德鲁安德森 ,Malwarebytes

“查看图表,寻找数据的一致性,并寻找缺乏拐点(比较分析)。 确保您至少有一周的一致性数据(这与仅一周的数据不同)。

您无法取代理解模式,查看数据并理解其含义。 没有什么可以取代仅仅关注数据的价值,以确保您不会在一天内被飙升并且您的数据是一致的。 这种人为级别的检查为您提供了有助于纠正这么多瑕疵的背景信息,只需查看您打开的最终数字即可。“

通俗地说? 当您的数据不像通常那样运行时,请不要运行测试。 如果没有数据的一致性,您的测试结果将无法在大多数情况下适用。

许多A / B测试平台不考虑数据一致性。

  • 打开您选择的测试平台,亲自深入了解数据。
  • 寻找尖峰和其他异常情况。 你有没有看到周二转换的异常激增?
  • 如果是,请再次运行测试。

2.理解方差

方差和标准差与一致性密切相关。 从本质上讲,他们会告诉你你的数字平均距离有多远。 低差异意味着您的数据与平均值一致,这样可以降低污染风险。

您可以自己手动进行数学运算,也可以使用简单的标准偏差计算器

根据安德鲁的说法,差异是消除样品污染的主要因素。

《样品污染:您不知道的A / B测试问题》安德鲁安德森 ,Malwarebytes

“始终考虑差异并始终关注数据模式。 你可以对.5%的升力有99%的自信,我会告诉你什么都没有(中性)。 你可以有3%的提升和80%的信心,如果它超过一周,你的自然差异低于3%,我会告诉你有一个不错的胜利。

在经典测试中,您希望预先选择受众规模,但忽略了自我选择偏差的现实以及数千种小样本人口抽样可能变得混乱(更不用说跟踪是混乱的)。 通过考虑方差并关注数据模式,您可以减轻这种风险(尽管从未摆脱它)。“

考虑方差和一致性,而不仅仅是重要性,将有助于防止和减少样品污染。

避免A / B测试风险

无论测试运行多长时间,样品污染都是不可避免的。 您可以降低风险,但绝不会消除风险。 您运行的每个测试都存在风险,这意味着您必须了解风险并开始之前对其进行分析。

关键不是避免风险,而是管理和平衡风险。

结论

运行更好的测试从样品质量开始。

你的样品够大吗? 设置您的重要性,功效和MDE,然后使用样本量计算器进行检查。 它有代表性吗? 请亲自检查您的数据的一致性,并使用标准差计算器计算差异。 这是偏见吗? 考虑进行双盲测试,以使偏袒不起作用。

在运行下一个测试之前,请执行以下步骤:

  1. 使用显着性,功效和MDE计算样本量。
  2. 识别不同类型的流量(例如工作日与工作日,来源,新与回归)及其独特性。
  3. 消除您作为测试人员的个人偏见。
  4. 运行测试直到您达到完整样本,直到达到显着性。
  5. 亲自分析您的数据,发现可能导致测试无效的不一致(和高差异)。

你永远不会完全消除样品污染。 Cookie将被删除,将使用多个设备和浏览器,环境和技术因素将发挥作用。 但是,您可以最大限度地减少和隔离污染,以便您采取统计上显着(和相关)的数据。

相关文章

  • A / B测试非常有用,这里毫无疑问。 但很多企业不应该……

  • A / B测试很有趣。 有了这么多易于使用的工具,任何人都可以而且应该这样做。 但是,有……

  • 有时A / B测试看起来像是一个可以解决所有问题的神奇工具……

  • A / B测试 – 关于它的所有内容,人们仍然搞砸了。 从…

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注