bts防弹少年团演唱会

bts防弹少年团演唱会

A / B测试统计:易于理解的指南

《A / B测试统计:易于理解的指南》

测试工具变得越来越复杂。 博客充斥着“鼓舞人心”的案例研究。 实验对于营销人员来说变得越来越普遍。 然而,统计知识却落后了。

这篇文章充满了来自顶级CRO专家的A / B测试统计数据的清晰解释。 A / B测试统计是并不复杂,但它们必不可少的正常运行测试。

这是我们将要介绍的内容(随意向前跳):

  1. 均值,方差和抽样 ;
  2. 统计意义 ;
  3. P值 ;
  4. 统计权力 ;
  5. 置信区间和误差范围 ;
  6. 回归平均值 ;
  7. 细分 ;
  8. 混淆变量和外部因素。

如果您不确定为什么 A / B测试统计数据如此重要……

为什么我需要知道A / B测试统计数据?

统计学并不一定有趣。 在%E7%BA%A2%E8%89%B2%E5%92%8C%E7%BB%BF%E8%89%B2%E6%8C%89%E9%92%AE%E4%B9%8B%E9%97%B4%E8%BF%9B%E8%A1%8C%E6%B5%8B%E8%AF%95%E5%8F%AF%E8%83%BD%E4%BC%9A%E6%9B%B4%E6%9C%89%E8%B6%A3%EF%BC%8C%E5%B9%B6%E7%AD%89%E5%88%B0%E4%BD%A0%E7%9A%84%E6%B5%8B%E8%AF%95%E5%B7%A5%E5%85%B7%E5%91%8A%E8%AF%89%E4%BD%A0%E5%85%B6%E4%B8%AD%E4%B8%80%E4%B8%AA%E5%87%BB%E8%B4%A5%E4%BA%86%E5%8F%A6%E4%B8%80%E4%B8%AA%E3%80%82″>

如果这是你的策略,你就会失望。 这种方法并不比猜测好多少。 通常情况下,它以一年的测试结束,但您开始时的转换率完全相同

统计信息可帮助您解释结果并做出实际的业务决策 对A / B测试统计数据缺乏了解可能导致错误和不可靠的结果。

来自Conductrics%E7%9A%84” gershoff>在引用他的大学数学教授时说:“如果你不知道牛奶来自哪里,你怎么能制作奶酪?!”

这是马特的类比:

《A / B测试统计:易于理解的指南》

Matt Gershoff:

“所以,例如,说我有两杯咖啡,我想知道%E5%93%AA%E4%B8%80%E4%B8%AA%E6%9B%B4%E7%83%AD“>

现在,让我们说你想问,“我镇上哪个地方有更热的咖啡,麦当劳或星巴克?”嗯,每个地方都有很多咖啡,所以我要比较一杯咖啡。 任何时候我们必须测量和比较事物的集合,我们需要使用统计数据。“

因此转换率也是如此。 转换优化是探索和利用之间的平衡行为。 这是关于平衡风险,这是统计数据解决的基本问题。 正如Ton” wesseling>所说:

《A / B测试统计:易于理解的指南》

Ton Wesseling:

“在实验中,权衡总是在探索和剥削之间。 你想知道真正的答案,还是只想赚钱?

如果您正在测试药物以阻止某人死亡 – 而且A变种没有获得这些药物 – 当您看到变异B正在工作时,何时停止喂食变种A? 考试期间? 经过几次积极的测试? 在你决定给每个人变化B之前,有多少人需要死亡。

当然,经营一家企业并不像这个例子那么戏剧化,但是,你仍然想要超越竞争对手。 你想要学习,但不能完全100%确定,因为这会让你太慢 – 不能快速调整到用户的意愿。“

了解统计数据%E5%B0%86%E4%BD%BF%E6%82%A8%E6%88%90%E4%B8%BA%E6%9B%B4%E5%A5%BD%E7%9A%84%E8%90%A5%E9%94%80%E4%BA%BA%E5%91%98” b>

1.均值,方差和抽样

在深入研究A / B测试统计数据的细节之前,您应该了解三个术语:

  • 意思;
  • 方差;
  • 采样。

意思

平均值是平均值。 对于转换率,它是事件的数量乘以成功的概率(n * p)。

在我们的咖啡示例中,这将是测量我们采样的每杯咖啡的温度,然后除以杯子总数的过程。 平均温度应代表实际平均值。

在线实验中,由于我们无法知道“真实”转换率,因此我们测量每种变化的平均转换率。

方差

方差是我们数据的平均可变性。 可变性越高,作为单个数据点的预测器的平均值就越不精确。

平均而言,基本上,单个杯子的咖啡离集合的平均温度有多远。 换句话说,每个杯子的实际温度的平均值有多近? 方差越小,每个杯子温度的平均值就越准确。

许多事情都会导致变化(例如,多久以前咖啡倒了,谁做了,有多热,等等)。 在转化优化方面,营销实验提供%E4%BA%86%E4%B8%80%E4%B8%AA%E5%BE%88%E5%A5%BD%E7%9A%84%E5%B7%AE%E5%BC%82%E7%A4%BA%E4%BE%8B“>

《A / B测试统计:易于理解的指南》

上面的两张图片完全相同 – 除了治疗获得的转换次数增加了15%。 这是A / A测试。

A” a>通常用于检测您的测试软件是否正常工作,也用于检测自然变异性。 它在两个相同的页面之间拆分流量。 如果您发现一个变异的统计上显着的提升,您需要调查原因。

采样

由于我们无法衡量“真实的转换率”,我们必须选择一个统计上代表整体的样本。

在我们的咖啡示例中,我们不知道每家餐厅的咖啡平均温度。 因此,我们需要收集温度数据来估算平均温度。 因此,与比较单杯咖啡不同,我们不会测量麦当劳和星巴克所有可能的咖啡。 我们使用其中一些来估计总数。

我们测量的杯子越多,样品越有可能代表实际温度。 随着样本量的增大,方差会缩小,我们的平均值更可能是准确的。

同样,在转换优化中,样本量越大,通常,您的测试就越准确。

2.统计意义

让我们从一个显而易见的问题开始:什么是统计意义? %E6%AD%A3%E5%A6%82Evan” miller> :

当A / B测试仪表板显示“有95%的机会击败原始”或“90%的统计显着性概率”时,它会问以下问题:假设A和B之间没有潜在的差异,我们多久会这样做看到像我们在数据中的差异只是偶然的?

统计显着性是%E9%9B%B6%E5%81%87%E8%AE%BE%E7%BB%9F%E8%AE%A1%E6%A3%80%E9%AA%8C%E4%B8%AD%E7%9A%84%E4%B8%BB%E8%A6%81%E9%87%8F%E8%AF%8D%E3%80%82″>

如果您没有%E9%A2%84%E5%85%88%E7%A1%AE%E5%AE%9A%E6%B5%8B%E8%AF%95和停止点(测试结束时),则可能会得到不准确的结果。 为什么? 因为大多数A / B测试工具不等待%E5%9B%BA%E5%AE%9A%E7%9A%84%E6%97%B6%E9%97%B4%E8%8C%83%E5%9B%B4“>

大多数A / B测试在整个实验的许多点上在显着和无意义之间振荡:

《A / B测试统计:易于理解的指南》
%E5%9B%BE%E7%89%87%E6%9D%A5%E6%BA%90“>

这就是大的原因之一STATISTICA“>优化者开始的最大错误就是尽早调用他们的测试。

这是我们之前给出的一个例子。 测试开始两天后,结果如下:

《A / B测试统计:易于理解的指南》

变化明显失去了,对吗? 它有0%的机会击败原版。 没那么快。 根据该工具,它具有“统计意义”吗? 是。 但是10天后查看结果:

《A / B测试统计:易于理解的指南》

这就是为什么你不应该偷看结果。 你对结果的看法越多,你所谓的“alpha error inflation”就越冒险( %E5%9C%A8%E8%BF%99%E9%87%8C%E9%98%85%E8%AF%BB“>

此外,要警惕声称具有统计意义但尚未公布完整数字的案例研究。 许多可能“具有统计学意义”,但样本量很小(例如100个用户)。

3. P值

如果你对统计显着性进行一些后续阅读,你可能会遇到“p值”一词.p值是%E5%AF%B9%E9%9B%B6%E5%81%87%E8%AE%BE” b>

Matt Gershoff %E5%9C%A8%E5%89%8D%E4%B8%80%E7%AF%87%E6%96%87%E7%AB%A0%E4%B8%AD%E7%BB%99%E5%87%BA%E4%BA%86%E4%B8%80%E4%B8%AA%E5%BE%88%E5%A5%BD%E7%9A%84%E4%BE%8B%E5%AD%90%E5%92%8C

《A / B测试统计:易于理解的指南》

Matt Gershoff:

“如果我们出去提供50个潜在客户的’Analytics200’促销活动,我们平均会期望有5个会议注册。 但是,如果我们看到更少或更少的几个,我们就不会感到惊讶。

但是有几个呢? 如果我们看到4,我们会感到惊讶吗? 那么10,或25,还是零呢? 事实证明,p值回答了这个问题:“这个结果多么令人惊讶?”

形式上,p值是从零开始看特定结果(或更大)的概率,假设零假设为真。 如果“零假设为真”令人困惑,请将其替换为“假设我们确实进行过A / A测试”。

如果我们的测试统计数据处于“令人惊讶”的区域,我们拒绝空值(拒绝它实际上是A / A测试)。 如果结果 “不令人惊讶”的区域内,那么我们就不能拒绝null。 而已。

真正需要了解的P值

p值不会告诉你B比B好的概率。同样,如果你实现B而不是A,它也不会告诉你出错的可能性。这些是常见的错误观念。

请记住,假设零假设为真,则p值只是看到结果(或更极端的)的概率 。 或者,“这个结果多么令人惊讶?”

小记:有一个%E5%A4%A7%E8%BE%A9%E8%AE%BA%E4%B8%AD%E6%9C%89%E5%85%B3p%E5%80%BC%E7%9A%84%E7%A7%91%E5%AD%A6%E7%95%8C%E3%80%82″>

4.统计权力

虽然统计意义是你经常听到的术语,但许多人忘记了%E7%BB%9F%E8%AE%A1%E8%83%BD%E5%8A%9B“>它实际存在的,在您的测试灵敏度的影响的可能性。

当你的功率水平较低时,你就会“错过”一个真正的赢家。 埃文·米勒(Evan Miller) %E6%95%B4%E7%90%86%E4%BA%86%E4%B8%80%E5%BC%A0%E5%BE%88%E6%A3%92%E7%9A%84%E5%9B%BE%E8%A1%A8%E6%9D%A5%E8%A7%A3%E9%87%8A%E8%BF%99%E4%BA%9B%E5%B7%AE%E5%BC%82″>

%E6%95%88%E6%9E%9C%E5%A4%A7%E5%B0%8F%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98%E8%A7%A3%E7%AD%94%E6%80%BB%E7%BB%93%E5%A6%82%E4%B8%8B“>

统计功效是研究在检测到效果时检测效果的可能性。 如果统计功率很高,那么产生类型II错误的概率,或者当实际存在类型II错误时,结论就没有效果。

四个主要因素影响任何测试的统计显着性的力量:

  1. 规模效应;
  2. 样本量(n);
  3. 阿尔法显着性标准(α);
  4. 统计功效,或选择或暗示的β(β)。

出于实用目的,您真正需要知道的是80%的功率是测试工具的标准。 要达到该级别,您需要大样本大小,大效果大小或更长持续时间的测试。

正如Wesseling所说:

《A / B测试统计:易于理解的指南》

Ton Wesseling:

“您希望尽可能长时间地进行测试 – 至少一个购买周期 – 数据越多,测试的统计功效越高! 更多流量意味着您有更高的机会在您正在测试的显着性水平上识别您的获胜者!

因为……微小的变化可以产生很大的影响,但是大的影响不会经常发生。 大多数情况下,您的变化稍微好一些 – 因此您需要足够的数据才能注意到重要的赢家。“

需要注意的是:如果您的测试持续时间过长,则存在样品污染的风险。 %E9%98%85%E8%AF%BB%E8%BF%99%E7%AF%87%E6%96%87%E7%AB%A0%E4%BA%86%E8%A7%A3%E6%9B%B4%E5%A4%9A%E4%BF%A1%E6%81%AF“>

5.置信区间和误差范围

%E7%BD%AE%E4%BF%A1%E5%8C%BA%E9%97%B4%E6%98%AFA” b>

《A / B测试统计:易于理解的指南》
图片来源

由于统计数据是推论性的,因此我们使用置信区间来降低%E6%8A%BD%E6%A0%B7%E9%94%99%E8%AF%AF%E7%9A%84%E9%A3%8E%E9%99%A9%E3%80%82″ y>

一个实际应用是观察置信区间是否重叠。 正如Michael Aagaard所说:

因此,转换范围可以描述为您愿意接受的误差范围。 转换范围越小,结果就越准确。 根据经验,如果两个转换范围重叠,则需要继续测试以获得有效结果。

John Quarto有一个%E5%BE%88%E5%A5%BD%E7%9A%84%E8%A7%86%E8%A7%89%E8%A7%A3%E9%87%8A%E7%BD%AE%E4%BF%A1%E5%8C%BA%E9%97%B4“>

收集更多数据时,置信区间会缩小,但在某一点上,存在收益递减规律。

《A / B测试统计:易于理解的指南》

从右向左阅读,随着我们增加样本量,我们的抽样误差会下降。 但是,它会以递减的速度下降,这意味着我们从样本的每次添加中获得的信息越来越少。

现在,如果你要对这个主题做进一步的研究,你可能会对%E6%9C%AF%E8%AF%AD%E2%80%9C%E7%BD%AE%E4%BF%A1%E5%8C%BA%E9%97%B4%E2%80%9D%E5%92%8C%E2%80%9C%E8%AF%AF%E5%B7%AE%E8%8C%83%E5%9B%B4%E2%80%9D%E7%9A%84

Matt Gershoff给出了一个说明性的例子:

《A / B测试统计:易于理解的指南》

Matt Gershoff:

“说你的朋友将来Round Rock参观你,并在下午5点服用TX-1。她想知道应该花多长时间。 你说我有95%的信心,你需要大约60分钟,加上或减去20分钟。 因此,您的误差幅度为20分钟,即33%。

如果她是在上午11点来,你可能会说,“你需要40分钟,加上或减去10分钟”,所以误差范围是10分钟,即25%。 虽然两者都处于95%的置信水平,但误差幅度不同。“

6.回归均值

第一次测试时可能遇到的一个常见问题是,“测试开始时波动的原因是什么?”这就是我的意思:

正在发生的是对均值的回归。 对均值的回归是“如果变量在其第一次测量中极端,则在第二次测量时趋向于接近平均值的现象。”

一个很好的%E4%BE%8B%E5%AD%90%E6%9D%A5%E8%87%AA%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91“>

想象一下,你给一类学生一个关于一个主题的100项真/假测试。 假设所有学生随机选择答案。 然后,每个学生的分数将是独立和相同分布的随机变量的实现,预期平均值为50.当然,一些学生将得分远高于50而远低于50。

因此,假设您只接受前10%的学生并给他们第二次测试,他们再次在所有问题上随机猜测。 由于预计平均值仍将接近50,因此预计学生的分数将回落至平均值 – 他们的分数将下降并接近平均值。

A” b> ,它可能由于各种原因而发生。 如果你只是在达到重要性的基础上提前进行测试,那么你可能会看到误报。 而且你的“胜利者”很可能会回归平均值。

相关主题是%E6%96%B0%E9%A2%96%E6%80%A7%E6%95%88%E6%9E%9C“>

Adobe%E6%A6%82%E8%BF%B0%E4%BA%86%E4%B8%80%E7%A7%8D%E5%8C%BA%E5%88%86%E6%96%B0%E9%A2%96%E6%95%88%E6%9E%9C%E4%B8%8E%E5%AE%9E%E9%99%85%E5%8A%A3%E5%8A%BF%E4%B9%8B%E9%97%B4%E5%B7%AE%E5%BC%82

要确定新优惠是否由于新颖效果而表现不佳,或者因为它确实较低,您可以将访问者细分为新访者和回访者,并比较转化率。 如果它只是新奇效果,新的优惠将赢得新的访客。 最终,随着回访者习惯于新的变化,优惠也将与他们一起赢得。

7.细分

在A / B测试中学习的关键是分段。 即使B在整体结果中可能输给A,B也可能在某些部分击败A(例如有机,Facebook,移动等)。 对于细分,适用相同的停止规则。

确保每个细分中的样本量足够大。 提前计算; 如果每个细分中每个变体的转换次数少于250-350,请小心谨慎。

正如AndréMorys %E5%9C%A8%E4%B9%8B%E5%89%8D%E7%9A%84%E4%B8%80%E7%AF%87%E6%96%87%E7%AB%A0%E4%B8%AD%E6%89%80%E8%AF%B4%EF%BC%8C%E5%9C%A8%E6%B2%A1%E6%9C%89%E7%BB%9F%E8%AE%A1%E6%9C%89%E6%95%88%E6%80%A7%E7%9A%84%E7%BB%86%E5%88%86%E5%B8%82%E5%9C%BA%E4%B8%AD%E6%90%9C%E7%B4%A2%E5%8D%87%E9%99%8D%E6%9C%BA%E6%98%AF%E4%B8%80%E4%B8%AA%E5%BE%88%E5%A4%A7%E7%9A%84%E9%94%99%E8%AF%AF%EF%BC%9A”>

《A / B测试统计:易于理解的指南》

网络艺术的安德烈莫里斯

“我们刚刚在夏季销售阶段对一家大型时装零售商进行了测试。 非常有趣的是看到结果在“硬销售阶段”中的结果大幅下降了70%甚至更多 – 但是在阶段结束后一周就恢复了。 如果测试没有运行近四周,我们就永远不会学到这一点。

我们的“经验法则”是:每次变化3,000-4,000次转换,3-4周测试持续时间。 这是足够的流量,所以如果我们深入细分,我们甚至可以谈论有效的数据。

测试’罪’没有。 1:虽然你没有统计有效性,但是在段内寻找提升 – 例如85对97转换 – 这就是废话。

您可以从细分测试数据中学到很多东西,但要确保将相同的统计规则应用于较小的数据集。

8. 混淆变量和外部因素

运行A / B测试存在挑战:数据是“非静止的”。

静止时间序列是其统计特性(均值,方差,自相关等)随时间恒定的时间序列。

由于许多原因,网站数据是非平稳的,这意味着我们无法做出与固定数据相同的假设。 以下是数据可能波动的几个原因:

  • 季节;
  • 一周中的天;
  • 假期;
  • 按(正面或负面);
  • PPC / SEM;
  • 搜索引擎优化;
  • 字的口碑。

还有更多,其中大部分强调了整整一周测试的重要性。 你可以自己看看。 在您的网站上运行每周的每周转换报告,以查看有多少波动:

《A / B测试统计:易于理解的指南》

你可以看到周六的转换率远低于周四的转换率。 因此,如果您在星期五开始测试并在星期日结束,那么您的结果会有所偏差。

如果您在圣诞节期间进行测试,那么在2月份到来之前,您的获胜测试可能不会成为赢家。 同样,这是Web数据不稳定的产物。 修复? 如果您有超过假期(或促销期间)的测试,请在“正常”时间内运行重复测试。

外部因素肯定会影响测试结果。 如有疑问,请进行后续测试(或查看%E5%BC%BA%E7%9B%97%E6%B5%8B%E8%AF%95%E4%BB%A5%E8%8E%B7%E5%BE%97%E7%AE%80%E7%9F%AD%E4%BF%83%E9%94%80%EF%BC%89%E3%80%82″>

结论

学习基础A / B测试统计数据可以避免测试计划,执行和解释中的错误。 以下是一些测试启发式:

  • 测试整整一周。
  • 测试两个业务周期。
  • 确保您的样本量足够大(在开始测试之前使用计算器)。
  • 请记住混淆变量和外部因素(假期等)。
  • 在运行测试之前,为测试设置固定的范围和样本大小。
  • 你不能“看到趋势。”将出现对均值的回归。 等到测试结束才能调用它。

相关文章

  • A / B测试非常有用,这里毫无疑问。 但很多企业不应该……

  • 如果你想要……有一个经过深思熟虑的A / B测试Facebook广告活动的计划是必不可少的

  • 有时A / B测试看起来像是一个可以解决所有问题的神奇工具……

  • 即使是经过精心设计的测试概念的A / B测试也可能导致不显着的结果和错误的解释。

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注