bts防弹少年团演唱会

bts防弹少年团演唱会

如何分割A / B测试结果以找到黄金

《如何分割A / B测试结果以找到黄金》

你进行了A / B测试 ,这是一个胜利者。 或者它可能是扁平的(变化之间的性能没有差异)。 这是否意味着您测试的治疗方法没有引起任何人的共鸣? 可能不是。

如果您使用A / B测试定位所有访问者,它只会报告整体结果 – 并忽略部分流量中的部分内容。

为什么进行测试后细分很重要?

您的用户与众不同。 什么与一个人产生共鸣,与另一个人无关。

如果按浏览器版本划分A / B测试结果,您可能会发现来自Safari Web浏览器的客户转化得比平均值好得多。

您可能还会注意到,使用Firefox浏览器的人在看到变体B时几乎无法转换:这可能意味着前端代码存在一些技术问题,导致这些处理无法在Firefox上运行。

注意哪些部分对特定治疗反应良好(或不是全部)可能会带来不同的赚钱差异。

大企业尤其如此:

《如何分割A / B测试结果以找到黄金》 乍得桑德森, %E5%9C%B0%E9%93%81“>

“对于大型企业,细分绝对至关重要。

贵公司越是知名度越高,直接影响主要KPI的总体水平就越大,因为无论您的按钮颜色是红色还是蓝色,大多数购买的客户都会这样做。

在任何实验中,某些群体中的某些指标通常会发生变化,但我们是否投入了统计严谨性来发现它是另一个问题。“

了解这些更精细的细节有助于有意义地将您的指标转向积极的方向,而这些指标可能曾一度处于稳定状态。

《如何分割A / B测试结果以找到黄金》

图像来源

分析测试后分析中的数据

A / B / n测试结果报告测试所针对的所有访问者的结果。 如果目标受众足够大,他们会让您了解一般趋势,但不会了解某些群体中的具体趋势。

汇总数据平均可以显示网站数据随时间的显着差异; 但是,当您将这些数据分解为组时,特定用户段通常会有显着差异 – 再次证明聚合中的所有数据都是废话

Jakub Linowski详细阐述了某些群体之间的区别,即测试后分析中的细分可以指出。

《如何分割A / B测试结果以找到黄金》 Jakub Linowski, GoodUI.org“>

“我们在开始测试之前设置的一个常见细分可能包括:桌面
与移动流量。

因为这两者之间的经验和布局非常激烈,即使我们在一个细分中检测到阳性结果,我们也可能选择仅实施那个特定结果。

我们通常设置的第二个细分可能包括:现有客户与首次客户。 如果这两个段都通过相同的屏幕或漏斗移动,则值得单独跟踪它们。

对初次使用的客户起作用可能对再次购买的人产生的影响较小(并被其稀释)。 同样,如果我们发现新客户的积极信号,而不是现有客户,我们仍会建议实施这样的结果。“

TIm Stewart提供了一个Internet Explorer浏览器示例,用于说明测试后数据分段如何告诉您网站的功能:

《如何分割A / B测试结果以找到黄金》 蒂姆斯图尔特, TRS%E6%95%B0%E5%AD%97“> “我常常看到[低] Internet Explorer [性能]被解释为’这些技术上不太注重用户,这是一种技术产品; 因此,我们可能会期望业绩下降。 所以,我们会忽略它。

但是更简单且可能更可能的解释可能是测试变体工作得不太好,因为旧版浏览器的兼容性更差,并且在质量保证中经常被忽略以降低成本。

该变体与对照相比受到损害; 这不是对变体变化的公平考验。 这是对较小样本的变体功能的测试,来自可能存在更多兼容性问题的浏览器。

是的,在这种情况下,很可能它有更多的偏差,更多的异常值并报告对控件的更大差异。 足够重要。

我也看到了反向 – 该变体对该浏览器进行了彻底的QA测试,但控件上有一个未报告的错误。 这意味着该变体具有不公平的优势; 你没有测试这个假设,你无意中测试了固定与破坏。 专业提示:固定节拍打破。

因此,了解这一点很有用,以及在分析后查看细分的原因。

但它并不是要找到“赢家” – 而是通过调查潜在问题并增加对后续测试中要考虑的因素的理解来确保对整体结果的数据调查。

在您的A / B测试中进行质量保证是必须的,但是错误仍然可以进入。测试后细分可以帮助您发现任何治疗是否仍然存在问题。

方法论

Chad Sanderson解释说你必须有一个分割方法:

《如何分割A / B测试结果以找到黄金》 乍得桑德森, %E5%9C%B0%E9%93%81“> “像CRO中的任何其他内容一样,构建分段方法论是一个过程,而不是一旦测试结束就可以随心所欲地完成。

首先提出以下问题:

  • “哪些细分市场对我们的业务有真正的价值?”
  • “哪些细分可行?”
  • “哪个最有可能受到我们正在运行的测试的影响?”
  • “为了对治疗进行多次观察,我必须做哪种矫正?”

一旦你问自己这些问题并得出了一些答案,你就可以搜索你的数据并按照你选择的方式划分。

Avinash Kaushik提供了关于如何在源,行为和结果之间细分用户的出色指南。

但是,在细分时需要注意的是:一起比较的细分越多,错误概率就越高,因此要明智地选择并确保您的数据是相关的。 无需将苹果与橙子进行比较。

细分您的数据:在测试之前或之后?

许多优化器不喜欢在测试后分析中进行分段,而是喜欢从一开始就进行分段测试。

Chad Sanderson解释了为什么他更喜欢事先进行细分,他称之为“预注册”。

《如何分割A / B测试结果以找到黄金》 乍得桑德森, %E5%9C%B0%E9%93%81“>

“预注册背后的想法很简单:通过选择您认为最有可能受到测试影响的细分市场(这里是重要的部分)坚持这些分析规则,您可以显着降低随机绊倒的可能性意外误报。

为了理解原因,想象一下我们正在与休闲联盟篮球运动员进行三分射击比赛。 参与者包括一些非常糟糕的球员,一些普通球员和一些优秀球员。

根据拍摄比赛,我们想要弄清楚哪些人群比坏玩家更有优秀的球员。

在提前进行了大量测量后,我们发现普通玩家通常平均得分为10分中的2分。 这意味着普通玩家应该只有幸运才能在8%的时间内完成10次中的4次。

比赛结束后,我们看到有一些令人惊讶的团体平均每人中有4次出手4次:18-20岁的人喜欢The Daily Show,加油站文员,崇拜Gordon Ramsay,高中的人篮球运动员和纯素扑克专家。

如果你不得不猜测,哪支球队最有可能在篮球方面做得更好,哪些更有可能是随机机会的结果呢?

我们可以在分割中观察到同样的现象。 我们通过探索性分析观察到的细分越多,我们最终找到一些达到统计显着性的用户群的概率就越高。

通过提前选择受众群体,我们可以极大地限制我们在数据中看到的类型I错误数量。“

从头开始细分测试并不总能帮助您完成发现过程。 测试的目标是确定哪些部分响应哪些治疗,并且如果在开始测试之前将它们分开则通常很难做到。

Tim Stewart事先更喜欢分段,但表示在测试之前和之后都会发生错误。

《如何分割A / B测试结果以找到黄金》 蒂姆斯图尔特, TRS%E6%95%B0%E5%AD%97“> “将数据整理成’n’个样本会增加类型错误的风险。 除了较低的统计置信度和较小样本的较高波动性之外,如果切片样本足够多,则极有可能找到报告显着性但是误报的结果。

它看起来有所不同,它报告说您​​在完整测试中所选择的信心显着不同,但事实并非如此。

对于模式发现的人类猿来说,找到一个奇怪的结果,然后回顾性地假设可能出现这种情况的原因,这是非常容易的,也很诱人。 发明解释以适应数据,而不是针对原始假设进行测试。

因此,如果您正在进行测试后的分段分析,您需要进行双倍和三倍检查,确定您不是为了找到结果而挑选的。

通过了解您所引入的统计并发症和认知偏差来做到这一点。 请记住,这用于了解整体结果的组成因素,并可能告知进一步的探索和假设进行测试。

确保您没有选择性地调整您的样本,只是为了找到一个结果,您可以声明对其他不明确或意外结果的确定性。“

如何测试以确保有效的结果

正如Tim所说,每当您决定进行测试时,请确保您有效地遵循测试流程指南以确保有效结果至关重要。 设置测试不是时候流氓并把规则书扔出窗外。

WiderFunnel的Claire Keser提供了一些测试技巧:

《如何分割A / B测试结果以找到黄金》 Claire Keser, WiderFunnel“> “[…]结果并不总是值得信赖。 很多时候,你在案例研究中看到的数字缺乏有效的统计推论:要么他们过分依赖A / B测试工具的不可靠的统计引擎和/或他们没有解决常见的陷阱[…]用例研究作为一个灵感来源,但请确保您通过执行以下操作正确执行测试:

  • 如果您的A / B测试工具没有针对多重比较问题进行调整,请确保更正具有1个以上变化的测试的显着性水平。
  • 在实验过程中不要更改实验设置。
  • 不要使用统计显着性作为何时停止测试的指标,并确保在调用测试完成之前计算您需要达到的样本量。
  • 最后,继续对测试后的数据进行细分。 但请确保您没有陷入多重比较陷阱,并且正在比较重要且具有足够大的样本量的片段。“

房间里的大象:样本大小

《如何分割A / B测试结果以找到黄金》

一般来说,一个好的指导方针是在满足三个条件时停止A / B测试

  • 足够大的样本量(基于预测试样本大小计算)
  • 足够长的测试时间(最少2个商业周期,所以2-4周)
  • 统计显着性为95%或更高

但是,当数据被分段时,这可能会将您的样本大小分成不够大的块。

如果样本太小,则无法全面了解您的情况 – 您只能看到一小部分访问者,并且您的数据无法用于统计有效性。 (你想要统一采样以避免辛普森的悖论 。)

Tim Stewart同意您需要确保最小段的样本大小足以检测预期的差异。

斯图尔特说,你的实验控制必须是平等的:样本大小,性能范围和异常行为的分布。 控制不等式可以在段内,段之间以及整体中引入不同的加权平均值,从而为您提供不准确的数据。

《如何分割A / B测试结果以找到黄金》 蒂姆斯图尔特, TRS%E6%95%B0%E5%AD%97“>

“我会在计划和测试后分析中查看测试中的细分。 总体平均值由其组成部分的性能组成。 了解对该总数的贡献可以成为一项重要的学习考试[…]

想想一级方程式比赛。 比赛计划为70圈,最快的时间完成所有这些圈获胜。 但是,如果你只挑选两辆车来进行调查,那么他们之间的差距足够大,可以看到并保持10圈的大部分时间 – 这是你选择获胜者的那一个?

然后,如果您向下钻取并仅查看一个角落,则平均超过这10圈。 通过那个角落最快的车是赢家吗? 有可能。 可能不是。

对于拍摄的快照,您可以回答哪个角更快。 但这是一个不同的问题。 如果没有更多的背景,你无法与其他角落和其他角落进行比较。“

较小的变化不会反映在整体数据中,因为数字通常太小而不能影响升力。 如果没有细分,那么这些洞察力就会被遗漏 – 细分会给出背景。

跟进测试

为了减少样本量,您应该将原始A / B测试的时间增加一倍 ,特别是如果您事先知道要对结果进行分段。

Jakub Linowski解释说,当您决定分段时,表明您是否应该进行重新测试:

《如何分割A / B测试结果以找到黄金》 Jakub Linowski, GoodUI.org“>

“决定是否对分段采取行动的一个关键标准是该分段是在实验之前还是之后定义的。

如果测试的设计考虑了一个细分市场,那么设置通常具有足够的统计功能来做出决策。 另一方面,如果通过切片和切割随机段来检测某些信号,则确保存在足够的功率变得很重要(通过延长测试持续时间或重新测试)。

如果您事先不知道您将结果细分为细分,请针对特定的,效果良好的细分市场启动后续测试 ,直到您获得适当的样本量。

这会让你知道是否存在某些东西。 如果不这样做,你就会依赖误导性的无效数据。“

您的样本量有多大可用于后续测试?

您需要提前为该特定段计算样本大小。 您可以将预期的提升设置为您在原始测试中看到的内容。

《如何分割A / B测试结果以找到黄金》

例如 :如果在原始测试中您看到该段内部有大幅提升(例如+ 30%),则您不需要尽可能多的人参与测试以获得统计有效性。

但需要注意的是,如果电梯很小(例如5%),则需要更大的样本量。

回顾过去的偏见并关注数据

对数据以某种方式表现出来的原因进行先验假设可能会让您陷入困境。

Tim Stewart讨论了他在职业生涯中遇到的一些测试问题:

“同样常见的是设备拆分,有时由于先前接受的’知识’而被解雇的潜在有价值的洞察力。

人们报告说,’我们知道移动设备的销售转化率较低; 消费者研究移动,购买他们的桌面。 [我们一直看到这种模式]在测试之外。

然后,看到桌面版本优于控件,移动版本没有显示差异,或显示小的负面,但总体上是净增益。 因此,它被宣布为胜利者。

《如何分割A / B测试结果以找到黄金》

但更有用的是询问并测试为什么移动设备被“接受”以表现更差。 为什么检测10%vs 12%桌面比5%vs 6%移动更容易?

问:为什么基线较低? 为什么影响更小/更明显 – 因为实际变化,或者因为较低的基线意味着对波动性更敏感?

这个变种是先设计的吗? 或者,台式机的概念被挤入了较少的房地产,而且真正的工作效果不佳。

或者是测试中的主要杠杆,您正在探索的假设,在更大的屏幕上更清晰,在移动屏幕上几乎看不到?

移动用户是否有不同的动机? 更多时间压力,购买周期的不同部分,不同星期几周的模式?

移动样本是否大而且不同,足以报告为“重要”,但不足以代表不同的购买,研究或用户激励周期?

我与几个在登录用户测试中有明确模式的客户合作,我们可以跟踪并一致地测试跨设备的相同用户体验。

模式如:客户在一周内在桌面上进行研究,然后在周末所需的位置通过手机进行购买。 甚至在晚上从沙发上网冲浪,然后在第二天的午餐时间进行桌面购买。

《如何分割A / B测试结果以找到黄金》

本周还有一个消费者在桌面上购买的模式,然后在他们想要的位置(航班/出票事件)检查手机上的网站以达到不同的目的。

在很多场景中,用户将被计入测试但是要么在不同的设备上购买,要么他们的移动访问动机不同(检查延迟,确认详细信息,访问登机牌等),这意味着他们不会购买。

这会在一台设备或另一台设备上产生很大的信噪比,这需要加以考虑。 理想情况下,在计划中,但也在测试后细分。

访问的动机,用户期望的结果和不具代表性的样本也可能是营销渠道细分的一个重要因素。

《如何分割A / B测试结果以找到黄金》
我们的分段测试的示例,用于说明目的。

该变体是否更好地使关键要约突出显示,然后向付费搜索受众显示,该用户访问该要约的用户比例很高?

细分有助于发现这些模式,错误和遗漏,但这是在测试之前建立并相应地计划的。

考虑到测试后的分析并解释细分市场。 但是,如果假设和样本没有为这个细节有意识地建立,那么将这些假设为确定性在统计上是有问题的。

在那些可以确保用户被分配到相同体验的场景中,您有时可以运行混合测试 – 针对设备/屏幕尺寸/提供/预期用户动机之间的相同概念的不同处理。

但主要假设则变成:“我们的平衡是否合适?”

你是第二个猜测不同的动机/细分,并为背景开发不同的解决方案。 因此,测试和分析报告该混合方法是否有价值。

通过细分,您可以查看移动设备上的赢取是否取消桌面上的丢失(反之亦然),或者广告系列或电子邮件是否意味着样本在测试期间存在不公平的偏差。

测试后细分可以帮助识别这些区域,这些区域可以用于预测试计划,并可以通过适当的上下文和样本计划来测试特定区域。

然后,您可以使用特定于设备的假设,概念,样本大小来规划和运行完全不同的测试,以考虑不同级别的噪声,效果大小和用户动机。

《如何分割A / B测试结果以找到黄金》

但最终这是否值得,取决于这样做的成本。 计算机会成本,风险暴露,测试节奏与实施细分特定结果的能力,以及这样做的价值。

因为如果你不能实施(或禁止这样做),那么测试特定情境的治疗是有用的智能,但不是收益积极的。“

一旦发现特定治疗对某个细分市场更有效,您会怎么做?

如果有问题的段足够大,典型的答案就是个性化:根据最适合他们的方式,为不同的段提供不同的体验。

通过在个性化工具中创建手动规则来管理这一点很困难。 在这方面,机器比人类更好。 例如, Conductrics的基于机器学习的算法可以自己学习这些个性化规则(哪些特定部分响应哪种处理),并自动调整各种体验之间的流量。

Chad Sanderson详细介绍了一些工具以及对特定受众进行归零的重要性:

《如何分割A / B测试结果以找到黄金》 乍得桑德森, %E5%9C%B0%E9%93%81“> “为了利用分段数据,您必须有一些方法来显示这些用户的获胜变体。 如果您首先无法为该细分市场提供内容,那么对“在外面有雾的时候到达的访问者”进行测试的重点是什么?

有几个程序,有效地做到这一点: 的Adobe目标的配置文件脚本都是顶级之类的,因为是甲骨文Maxymiser的和Conductrics规则为基础的定位功能,但也有做到这一点,正如某些标签管理系统的过程中定制解决方案和好。

但是,重要的是要记住,仅仅因为可以分析特定的部分并不一定意味着它可以被定位。 例如,Adobe Analytics(Omniture)仅允许使用历史数据进行个性化。

这意味着在该用户点击网络媒体资源后48小时内,报告信息无法在访客级别投放。

这就像“新访客”一样,削减了任何“首次访问”的细分市场。 (尽管如上所述,Adobe确实有很多其他方法可以实现这一点)。

同样,请考虑“现场时间”等指标。

当然,也许在现场花费超过4分钟的访客在接受特定测试治疗时更有可能转换,但如果他们在查看测试内容后花费了这段时间,您将如何定位他们?

细分是高度上下文的,规则根据正在分析的细分类型而有很大差异。“

结论

用户细分对于获取洞察力和最大化收入至关重要。 在细分时,请记住,您正在分析的每个细分都需要足够大的有效样本量。

您是否应该进行预注册或测试后分析方法,应根据您的业务需求和特定于您的网站属性的问题来确定。

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注