bts防弹少年团演唱会

bts防弹少年团演唱会

5不舒服的A / B测试问题

《5不舒服的A / B测试问题》

AB%E6%B5%8B%E8%AF%95%E5%BA%94%E8%AF%A5%E6%98%AF%E7%9B%B4%E6%88%AA%E4%BA%86%E5%BD%93%E4%B8%94%E6%9E%81%E5%85%B6%E9%80%8F%E6%98%8E%E7%9A%84%E3%80%82″>

关于透明度有一些令人不安的问题,但我们可以回答它们。 在这篇文章中,我将解决五个“不舒服的问题”以及其他优化者的评论。

电梯还在吗?

你进行了测试,并且有一个稳定的赢家 – 样本量足够,测试运行了2个商业周期,置信水平高于95% – 并且提升率为10%。 您对结果充满信心 – 并在您的网站上实施获胜者。

现在3,6或12个月过去了。 电梯还在吗? 你怎么知道的?

假设你的老板或客户问这个问题。 你打算说什么?

您不能依赖网络分析数据 – 只需比较时间段 – 随着一切变化。 你的流量来源,外部环境等等 – 它不会是苹果与苹果的比较,太多不受控制的变量。

是的,重新测试它似乎是一个简单的方法,但实际上它可能不那么容易。 测试某些东西是机会成本 – 意味着你无法测试其他东西。 虽然我在这里重新验证了一些东西,但我可能正在测试一些能让我解脱的东西(但当然,不可能知道它是否会发生)。 你是否应该重新测试它也值得怀疑。

安德烈说除非测试一直在运行,否则你无法知道:

《5不舒服的A / B测试问题》 网络艺术的安德烈莫里斯

除非你一直在进行测试,否则你永远不会知道它。 测试是一个实验 – 而不是现实。 我们必须处理统计数据 – 这意味着我们有一定的机会,我们所有的平均改进都会在我们测量的提升范围内起作用 – 但我们永远不知道具体数量。

在行业之外缺乏成熟度就是这种期望。 “我估计10%的提升,所以我希望我的银行账户能够增加10%的资金”。 改变这种情况是我们的工作 – 这意味着我们必须停止沟通愚蠢的案例研究。

蒂姆建议你留下一个存根:

《5不舒服的A / B测试问题》 Tim Ash, SiteTuners

“胜利”是基于页面访问者群体不会改变的假设。 如果您处于快速变化的行业或您的交易混合变化,这些假设可能无效。

因此,我们建议许多测试客户继续进行持续的回测。 例如,您在90%的时间内获得胜利者(以获得大部分经济利益),并以10%的水平运行失败者(以确保作为长期趋势,它继续表现不佳)。 如果“失败者”开始做得相对更好,那么是时候再看一下页面并且可能会运行一些新的测试。

约翰建议同样的想法:

《5不舒服的A / B测试问题》 转化师 John Ekman

在实施获胜者后,在测试中留下一小部分流量,只是为了查看针是否再次移动。 我还建议:在一年中创建“测试插槽”,保留其中一个插槽进行重新测试。 因此,在此期间,您将返回测试日志并重新测试,以确保您的结果仍然有效。

卢卡斯认为提出这个问题毫无意义:

《5不舒服的A / B测试问题》 Booking.com的数据科学家Lukas Vermeer

如果你想知道,一个负面的实验,你测试B(现在是基础)对抗旧A,会告诉你,但这有关系吗?

只有你有理由认为A现在可能比B更好,这是唯一重要的。如果他们现在同样好,那么没有理由转回来; 你会浪费宝贵的测试时间。 最好找到能击败A和B的C!

迈克尔有关于这个问题的说明性故事:

《5不舒服的A / B测试问题》 内容真实的 Michael Aagaard

不久前,我正在为一家大型电子商务客户开展一个主要的CRO项目。 在项目的前6个月,我专注于转换渠道中最关键的步骤 – 在这种情况下,主要产品登陆页面和结帐渠道。

治疗基于广泛的转换研究和可靠的数据驱动假设。 此外,所有测试至少运行3个商业周期,并且基于至少200次转换和95%的置信度。 所以我有理由相信我的升降机实际上是真的。 除此之外,我们还在Google Analytics中密切跟踪所有内容,我们可以验证转化次数,收入和销售额是否有所上升以及我所有工作的综合效果是整体转化率提升了21%。

尽管如此,几个月后,转换率突然下降得像疯了一样,客户开始质疑我是否知道自己在做什么。

我非常认真地对待这一发展,并开始寻找解释。 幸运的是,在分析中找不到下降的原因并没有花费太多时间。

在没有通知我的情况下,客户已经开展了横幅广告系列,在几周内产生了超过30,000名新访问者 – 获得此次 – 零次转换(是的,这是一个正确的广告系列转化率为0%)。

这显然对整体转换率产生了负面影响,当我过滤掉这种异常糟糕的交通时,电梯仍在那里。 我与客户会面,他们明白转换率下降是因为他们的营销失误 – 而不是我的CRO工作。

如果您运行可以产生真正升力的实心A / B测试( %E8%80%8C%E4%B8%8D%E6%98%AF%E6%83%B3%E8%B1%A1%E7%9A%84%E9%82%A3%E4%BA%9B“>

交通质量的重大变化可能是犯罪分子。 转换渠道中早期关键点的更改也非常常见(例如,您优化了结帐页面并获得了提升 – 但一个月后,对着陆页进行了更改,导致不合格的流量激增)。

此外 – 平均值存在,因此请确保详细了解并分析您正在分析的数据集的细节。 这也意味着您需要%E5%B0%86%E6%B5%8B%E8%AF%95%E6%95%B0%E6%8D%AE%E4%B8%8E%E5%88%86%E6%9E%90%E8%AE%BE%E7%BD%AE%E9%9B%86%E6%88%90%EF%BC%8C%E4%BB%A5%E4%BE%BF%E5%85%A8%E9%9D%A2%E4%BA%86%E8%A7%A3%E6%82%A8%E7%9A%84%E6%B2%BB%E7%96%97%E5%A6%82%E4%BD%95%E5%BD%B1%E5%93%8D%E8%AE%BF%E5%AE%A2%E8%A1%8C%E4%B8%BA%E3%80%82″>

2.您正在运行的所有测试的综合提升是什么?

假设您正在大型电子商务网站上运行测试。 您可以同时运行多个测试:一个在主页上,一个在产品页面上,另一个在结帐中。

让我们说所有的测试都产生了自信的提升。 你怎么知道组合电梯? 实施3个获胜变体后,实际的业务影响是什么?

如果您的老板或客户要求您量化/预测影响,您会说什么?

Lukas认为只要所有变化都增加价值就无关紧要:

《5不舒服的A / B测试问题》 Booking.com的数据科学家Lukas Vermeer

如果您想知道答案,则需要创建一个组合实验,您可以在一个实验中一次性测试所有更改。 那会告诉你,但这有关系吗?

听起来所有变化都增加了价值; 那你为什么不申请呢?

请记住:在决定您的网站上应该使用哪种变体时,A和B之间差异的大小可能无关紧要。 您是否希望浪费宝贵的测试时间,这样您就可以编写精美的报告,通过在已经知道获胜者的同时将流量暴露给丢失的变体,确切地显示您丢失了多少钱来获取报告的数据?

你需要那份报告多么糟糕? 您愿意花多少钱在一个确切的数字上?

约翰同意:

《5不舒服的A / B测试问题》 转化师 John Ekman

我会说甚至懒得试图推测,计算这个。 如果我们使用增长黑客术语 – AB测试是一种“经过验证的学习”,而不是你发送给会计师的东西。 试图通过会计(基于分配,跟踪,审计)建立在统计模型上的测试方法的组织正在咆哮错误的树。

你应该听转换佛 – “ 你不能依附于你的数据”。 将你的精力用在更重要的事情上。

蒂姆还建议进行组合测试:

《5不舒服的A / B测试问题》 Tim Ash, SiteTuners

您可以进行快速A / B反向测试:原始家庭/产品/结帐页面与新家/产品/结帐页面。 这样,您将看到对销售的端到端影响,并且可以将三种页面类型之间的所有交互纳入适当的帐户。

安德烈说你需要改变你一次运行多个测试的方式:

《5不舒服的A / B测试问题》 网络艺术的安德烈莫里斯

您应该将您的流量分成不同的存储桶,这样您就可以无影响地测量每个测试。 如果混合测试流量,则会出现统计问题,因为您有类似非分段多变量测试的问题。

根据您拥有的转化次数,这会完全破坏您的意义,尽管该工具说您在某处有提升。 在此现象停止之前,您需要更多的流量。

那么过去12个月的实际业务影响是什么?

假设您正在优化网站,并且已经过去了6到12个月。

你每个月都有稳定的赢家 – 你对测试结果非常有信心。 6个月后,转换率仍然相同。 现在你的老板/客户来找你并问:你如何总结你所取得的进步?

这是一个非常不舒服的问题。 当您的KPI持平时,您如何证明您的贡献(和成本)?

你打算说什么?

我知道有人告诉他们的客户,这是不可能的。

问题在于跟踪进度很难,因为您的指标在不断变化。 您不能只检查6个月前每位访问者的转化率或收入,并将其与现在进行比较。 一切都在不断运动。

安德鲁对此进行了详细解释:

《5不舒服的A / B测试问题》 Malwarebytes优化主管Andrew Anderson

当事情看起来平坦或整体下降时,解释结果可能非常困难。 根本问题在于人们使用线性相关数据集而不是测试提供的比较数据,或者换句话说,你说你的X%更好,不一定是特定数字的X%。 尽管有测试结果,但所有数据都是正弦的,它会上升并且下降。 《5不舒服的A / B测试问题》

如果你正在上升,那么你可能很容易产生负面结果,并最终得到一个更高的总数,然后你开始。 你比你应该在哪里低,但作为一个绝对量度仍然更高。 同样地,如果你正在向下走,你可以最终降低,但仍然会比你原来的要好得多。 将影响表达为范围而非绝对数字也很重要。 我试着说清楚,当我说某些东西是X%更好的时候,它确实是.X倍X到2倍X更好,并且表达了实际数字的影响。 它可能会更少,因为它更少。

话虽如此,你应该更关心对其他人的影响,并且应该是第一个质疑你行为真正影响的人,否则你就像其他人一样对确认偏见负责。 一些最简单的方法是重新测试旧版本作为较大测试的一部分,或者使用弱因果分析来读取估计的影响。 在这两种情况下,您经常会发现实际上您的影响比您想象的要大。 重要的是,您在进行此分析时不会提示并主动向其他人提供对整个计划的完整评估。

我在我过去的一个工作中遇到了这个问题,我在这个工作中为这个网站带来了巨大的性能提升,但整体数字仍在下降。 经过5个月的持续优化和约120%的估计影响,我们决定将该网站的原始设计作为更大测试的一部分。 我们发现实际影响实际上是257%更好,真正压低性能的是SEM方法,推动所有潜在客户的质量潜在客户,降低整体业绩。 这导致眼睛偏离指责测试程序,而是重新评估SEM程序,同时真正授予优化程序无限制地访问以改变用户体验。

弱因果分析的解释 :做一个估计错误率的长期趋势线。 根据变化前的先前数据进行比较,并将结果与​​趋势线的预期结果进行比较。 确保使用自变量作为基础(如用户),这样您就可以了解自己的位置与您所处的位置。
不完美,但没有更好。

安德烈说你只能在线性数据中发现大升力:

《5不舒服的A / B测试问题》 网络艺术的安德烈莫里斯

我们一直认为我们的测试是完全孤立的 – 事实并非如此。 这也是工具中大多数公式错误的原因。 您可以查看环境如何影响测试结果,即使您正在进行测试(电视广告系列,简报流量,竞争对手营销活动等)。

如果您有大的提升测试结果,您将看到线性数据的提升。 但这意味着一个非常大的提升。 大约5-10%的所有内容都将隐藏在数据的噪音中。

卢卡斯说,如果你真的想知道过去6个月优化工作的影响,那就有办法了。

《5不舒服的A / B测试问题》 Booking.com的数据科学家Lukas Vermeer

如果您真的想知道,您可以通过将所有流量的一小部分发送到始终如一的稳定基础来实现这一目标,这种基础永远不会改变,它会告诉您现在网站的性能比以前好多少。

通常这在技术上很困难,但可能需要阐明不作为/不测试的成本。

约翰建议小心“转换率”:

《5不舒服的A / B测试问题》 转化师 John Ekman
说实话,“转换率”是BS指标。 这只是一个由大量因素影响的平庸平均值。 就像布莱恩艾森伯格所说的那样 – “K现在你的转换率就像知道你生病时的体温一样。 它不会告诉你什么是错的 “。

真的赢了吗?

您有一个成功的测试,但在实施获胜者之后,您并没有真正看到分析数字的提升。 真的赢了吗?

这里显而易见的一点是, 开始时没有电梯 。 这是想象中的。 也许你的样本量不够大,你的测试时间不够长。 %E7%BB%9F%E8%AE%A1%E6%98%BE%E7%9D%80%E6%80%A7%E4%B8%8D%E7%AD%89%E4%BA%8E%E6%9C%89%E6%95%88%E6%80%A7“>

安德烈同意,并补充说,除非电梯很大,否则你不会看到电梯:

《5不舒服的A / B测试问题》 网络艺术的安德烈莫里斯

获胜者需要一个非常显着的提升才能脱颖而出。 如果它有这种提升(比方说20%),你应该看到它。 如果你没有看到它,你测得错了。

在我看来,90%的测试结果都是错误的,因为人们对统计数据和适当的市场调查不够重视。 你总是需要一个代表性的样本,在大多数情况下,这意味着你的测试应该运行至少2-4周。 其他一切都是胡说八道。

约翰警告不要误报:

《5不舒服的A / B测试问题》 转化师 John Ekman

如果你在95%的置信水平下运行,你在20的时候仍然有1次机会实际上并没有发生升力。 如果你需要更加确定 – 重新测试。 否则继续前进,你可能还有更多的发现方面。

如果您有理由怀疑结果,Lukas建议重新测试:

《5不舒服的A / B测试问题》 Booking.com的数据科学家Lukas Vermeer

分析数字随着时间的推移不可靠,因为还有许多其他因素可能会影响他们。 如果您怀疑测试是误报,请重新运行实验。

5.您的测试对客户终身价值的影响是什么?

您正在使用每月定期付款来优化SaaS网站。 假设您有一个成功的测试 – 并获得更多付费注册。 但是你怎么能确定那些%E6%B5%81%E5%A4%B1%E4%B8%8D%E4%BC%9A%E5%A2%9E%E5%8A%A0%E5%91%A2%EF%BC%9F”>

您的典型测试工具不允许您轻松运行此测试,因此您需要将实验数据与其他注册信息(电子邮件,登录名,密码,选择计划等)一起存储在系统中。 大多数测试工具都是基于cookie的,因此您可以从cookie中提取信息,并存储实验ID +变体编号(或者如果它们是多个实验的一部分,存储所有这些)并将其与其他用户数据一起保存在后端。

Andre推荐这种精确的方法与队列分析相结合:

《5不舒服的A / B测试问题》 网络艺术的安德烈莫里斯

您需要进行队列分析。 通过将有关测试ID,变量编号等的数据传输到后端(CRM),可以轻松完成此操作,以便以后分析通过测试和变体分段的客户变量。

约翰说同样的话:

《5不舒服的A / B测试问题》 转化师 John Ekman

队列分析,随着时间的推移遵循不同的测试部分,并尝试将客户旅程中的不同测试点连接到CLV。
需要花费很多时间。 耐心点。

Lukas说你应该根据正确的指标挑选胜利者:

《5不舒服的A / B测试问题》 Booking.com的数据科学家Lukas Vermeer

选择正确的指标。

这个问题不是关于测试策略,而是关于业务目标。 如果您的业务依赖于重复付款,转化率可能不是优化的正确指标; 就像点击率对于优化酒店预订一样糟糕(例如EMK与主题“免费啤酒”将提高点击率,但可能会减少销售一旦客户发现您的网站上没有啤酒,当然不是免费的啤酒)。

您应该考虑更长期的指标,例如让客户保留3个月+的注册。

结论

这些令人不安的问题来自正确的地方 – 你想知道,但它常常被无知所掩盖。 确保你知道该说些什么,这样你就不会在客户或老板的眼中消除对优化的信心。 如果你不知道如何回答这些问题,你将不可避免地失去一些可信度。

相关文章

  • A / B测试非常有用,这里毫无疑问。 但很多企业不应该……

  • A / B测试很有趣。 有了这么多易于使用的工具,任何人都可以而且应该这样做。 但是,有……

  • A / B测试 – 关于它的所有内容,人们仍然搞砸了。 从…

  • 有时A / B测试看起来像是一个可以解决所有问题的神奇工具……

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注