bts防弹少年团演唱会

bts防弹少年团演唱会

贝叶斯与频繁的A / B测试 - 有什么区别?

《贝叶斯与频繁的A / B测试 - 有什么区别?》

在优化领域中存在一个哲学统计学争论:贝叶斯与频繁。

这不是一场新的辩论; 托马斯贝叶斯在1763年撰写了“ %E4%B8%80%E7%AF%87%E5%85%B3%E4%BA%8E%E5%9C%A8%E6%9C%BA%E4%BC%9A%E4%B8%BB%E4%B9%89%E4%B8%AD%E8%A7%A3%E5%86%B3%E9%97%AE%E9%A2%98%E7%9A%84%E6%96%87%E7%AB%A0“>

最近,这个问题在CRO世界变得相关 – 特别是宣布VWO将使用贝叶斯决策(Google实验也%E4%BD%BF%E7%94%A8Thompson%E9%87%87%E6%A0%B7“>

那么贝叶斯统计数据对于a” b>意味着什么呢? 首先,让我们总结贝叶斯和Frequentist方法,以及它们之间的区别。

%E6%B3%A8%E6%84%8F%EF%BC%9A%E5%9C%A8%E4%B8%A4%E7%A7%8D%E6%96%B9%E6%B3%95%E4%B9%8B%E9%97%B4%E7%9A%84%E5%93%B2%E5%AD%A6%E4%BA%89%E8%AE%BA%E6%88%96%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86%E7%9A%84%E5%A4%8D%E6%9D%82%E6%80%A7%E4%B8%AD%EF%BC%8C%E6%88%91%E4%B8%8D%E4%BC%9A%E5%A4%AA%E6%B7%B1%E5%85%A5%E3%80%82“>

频繁与贝叶斯统计的快速与差异

《贝叶斯与频繁的A / B测试 - 有什么区别?》
%E5%9B%BE%E7%89%87%E6%9D%A5%E6%BA%90“>

频繁的方法

您可能熟悉Frequentist测试方法。 它是大多数核心要求大学课程中教授的统计模型,它是a / b测试软件最常用的方法。

基本上,使用Frequentist方法意味着仅使用当前实验的数据来预测实验的基本事实。

正如Leonid Pekelis %E5%9C%A8%E4%B8%80%E7%AF%87Optimizely%E6%96%87%E7%AB%A0%E4%B8%AD%E6%89%80%E5%86%99%E7%9A%84%E9%82%A3%E6%A0%B7“>

贝叶斯方法

根据Leonid” pekelis> ,“贝叶斯统计数据采用了更为自下而上的数据分析方法。 这意味着相似实验的过去知识被编码到称为先验的统计设备中,并且该先验与当前实验数据相结合,以对手头的测试做出结论。

《贝叶斯与频繁的A / B测试 - 有什么区别?》

因此,最大的区别是贝叶斯概率指定存在一些%E5%85%88%E9%AA%8C%E6%A6%82%E7%8E%87“>

贝叶斯方法是这样的( %E4%BB%8E%E8%BF%99%E4%B8%AA%E8%AE%A8%E8%AE%BA%E4%B8%AD%E6%80%BB%E7%BB%93“>

  1. 定义包含关于参数的主观信念的先验分布。 现有可以是%E4%B8%8D%E6%8F%90%E4%BE%9B%E4%BF%A1%E6%81%AF%E6%88%96
  2. 收集资料。
  3. 使用贝叶斯定理用数据更新先前的分布(尽管你可以使用贝叶斯方法而不明确使用贝叶斯规则 – 参见%E9%9D%9E%E5%8F%82%E6%95%B0%E8%B4%9D%E5%8F%B6%E6%96%AF%E6%96%B9%E6%B3%95“>
  4. 分析后验分布并对其进行总结(平均值,中位数,sd,分位数,……)。

为了解释与转换率相关的贝叶斯推理,Chris Stucchio %E7%BB%99%E5%87%BA%E4%BA%86%E5%81%87%E8%AE%BE%E5%88%9D%E5%88%9B%E5%85%AC%E5%8F%B8BeerBnB%E7%9A%84%E4%BE%8B%E5%AD%90%E3%80%82″>

另一个例子是我在阅读%E7%B2%BE%E7%9B%8A%E5%88%86%E6%9E%90%E6%97%B6%E5%8F%91%E7%8E%B0%E7%9A%84%E3%80%82″>

或者正如%E6%97%A0%E8%BE%B9%E7%90%86%E6%80%A7%E5%86%99%E9%81%93“>

%E9%A9%AC%E7%89%B9Gershoff“>

《贝叶斯与频繁的A / B测试 - 有什么区别?》 Matt Gershoff:

“不同之处在于,在贝叶斯方法中,我们试图估计的参数被视为随机变量。 在频率论方法中,它们是固定的。 随机变量由它们的参数(均值,方差等)和分布(高斯,泊松,二项式等)控制。 先验只是先前对这些参数的看法。 通过这种方式,我们可以将贝叶斯方法视为将概率视为信念度,而不是将某些未知过程产生的频率视为“

总之,不同之处在于,在贝叶斯视图中,概率被分配给假设。 在频率论观点中,在不给出概率的情况下测试假设。

那么,为什么争议呢?

根据Malwarebytes%E7%9A%84” anderson>说法:认知失调。

《贝叶斯与频繁的A / B测试 - 有什么区别?》 安德鲁安德森:
“人们需要验证他们正在使用的任何方法,并且当有人暗示他们效率低下或使用完全错误的工具时,他们会受到威胁。 所涉及的数学通常是大多数优化者完全控制的唯一部分之一,因此他们过分重视自己的观点并反击反驳论点。“

他说,讨论分钟任务和方程式比讨论测试学科和组织中优化的整个角色要容易得多。

《贝叶斯与频繁的A / B测试 - 有什么区别?》
基于激烈辩论的另一个煽动性插图( 图片来源

The Benchmark Company首席执行官Rob” balon>对此表示赞同:

《贝叶斯与频繁的A / B测试 - 有什么区别?》 Rob Balon博士:

“无论如何,学术界的争论主要是深奥的摇摆。 事实上,大多数从象牙塔出来的分析师都不关心,如果有的话,关心贝叶斯与弗雷克斯特。“

尽管如此,安德鲁·格尔曼%E5%9C%A8%E2%80%9C%E7%BA%BD%E7%BA%A6%E6%97%B6%E6%8A%A5%E2%80%9D%E7%9A%84%E4%B8%80%E7%AF%87%E6%96%87%E7%AB%A0%E4%B8%AD%E8%A2%AB%E5%BC%95%E7%94%A8%E6%9D%A5%E6%8D%8D%E5%8D%AB%E8%B4%9D%E5%8F%B6%E6%96%AF%E6%96%B9%E6%B3%95%EF%BC%8C%E4%BD%9C%E4%B8%BA%E5%AF%B9%E8%99%9A%E5%81%87%E7%BB%93%E6%9E%9C%E7%9A%84%E4%B8%80%E7%A7%8D%E5%8F%8C%E9%87%8D%E6%A3%80%E6%9F%A5%E3%80%82″>

在我的研究中,很明显,基于每种方法的理念存在很大差异。 实质上,他们以略微不同的方式解决相同的问题。

进一步阅读:

这与A / B测试有什么关系?

“一个贝叶斯人,依稀望着一匹马,瞥见一头驴,坚信他已经看到了一头骡子。”

尽管Rob Balon提到辩论主要是“深奥的尾巴摇摆”(Matt Gershoff使用“统计剧场”一词),但在a / b测试方面存在商业影响。 每个人都希望更快,更准确的结果更容易理解和沟通,这就是两种方法都试图做的事情。

由于VWO宣布他们改变贝叶斯决策,因此人们对这些工具背后的数学方法感兴趣。 对此也存在很多误解,但主要源于一些常见问题。 哪个更准确? 我使用哪一个是否重要?

根据VWO%E7%9A%84” stucchio>的说法:

《贝叶斯与频繁的A / B测试 - 有什么区别?》 Chris Stucchio:

“一个是数学 – 它是”证明“科学假设和做出商业决策之间的区别。 在很多情况下,统计数据强烈支持“选择B”以赚钱,但只有弱支持“B是最好的是真实的陈述”。 B有50%的几率击败A(比如说B好15%)和50%几率差不多(假设0.25%差到0.25%)。 在这种情况下,选择B是一个很好的商业决策 – 也许你赢了一些东西,也许你什么都没有失去。

另一个原因是关于沟通。 经常性的统计数据直观地倒退,让我感到困惑。 研究已经完成,它们表明大多数人(阅读:80%或更多)完全误解了频率论的统计数据,而且往往错误地将它们解释为贝叶斯概率。 鉴于此,为什么不首先给出贝叶斯概率(大多数人都很难理解)呢?“

尽管如此,正如Matt” gershoff>解释的那样:“通常,我认为这是CRO思想中的一个巨大漏洞,我们是在尝试以某种合理的方式估计给定模型的参数(思考目标)。”

他继续:

《贝叶斯与频繁的A / B测试 - 有什么区别?》 Matt Gershoff:
“频繁的方法是一种风险厌恶的方法,并且问道,”嘿,考虑到我可能看到的所有可能的数据集,在某种意义上哪些参数设置“最好?”

所以数据是我们对期望的随机变量。 在贝叶斯情况下,如上所述,它是随机变量的参数,然后我们说’嘿,给定这个数据,什么是最佳参数设置,可以被认为是加权平均值基于先前的价值。“

你使用哪个问题?

有人说是,有些人说不。 像几乎所有事情一样,答案很复杂,双方都有支持者。 让我们从亲贝叶斯论证开始……

捍卫贝叶斯决策

Lyst%E5%8E%BB%E5%B9%B4%E5%86%99%E4%BA%86%E4%B8%80%E7%AF%87%E5%85%B3%E4%BA%8E%E4%BD%BF%E7%94%A8%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%86%B3%E7%AD%96%E7%9A%84%E6%96%87%E7%AB%A0%E3%80%82″>

他们说他们更喜欢贝叶斯方法有两个原因:

  1. 他们的最终结果是概率分布,而不是点估计。 “我们不必考虑p值,而是直接根据治疗可能影响的分布来思考……这使得理解和传达分析结果变得更加容易。”
  2. 使用信息丰富的先验允许他们减轻困扰经典重要性测试的许多问题(他们引用重复测试和低基本率问题 – 尽管Evan Miller对此%E9%BB%91%E5%AE%A2%E6%96%B0%E9%97%BB%E7%BA%BF%E7%A8%8B%E7%9A%84%E5%90%8E%E4%B8%80%E8%AE%BA%E7%82%B9%E6%8F%90%E5%87%BA%E5%BC%82%E8%AE%AE%EF%BC%89″>

还提供了以下视觉效果,他们从伯努利分布中得到两个样本(是/否,尾/头),计算每个样本的p参数(头部概率)估计值,然后得出它们的差异:

《贝叶斯与频繁的A / B测试 - 有什么区别?》
《贝叶斯与频繁的A / B测试 - 有什么区别?》

这篇文章是支持使用贝叶斯方法的一个坚实的论据(他们也有一个你可以使用的%E8%AE%A1%E7%AE%97%E5%99%A8“>

“值得注意的是贝叶斯方法没有什么神奇之处。 上述优点完全归功于使用信息丰富的先验。 相反,如果我们使用平坦的(或无信息的)先验 – 我们的参数的每个可能值都是同样可能的 – 所有问题都会回来。“

Chris” stucchio>解释了VWO使用贝叶斯决策的一些原因:

《贝叶斯与频繁的A / B测试 - 有什么区别?》 Chris Stucchio:

“在我看来,这主要有两个原因:首先是理解。 我更容易理解贝叶斯结果意味着什么而不是频繁的结果,而且%E8%AE%B8%E5%A4%9A%E7%A0%94%E7%A9%B6%E8%A1%A8%E6%98%8E%E6%88%91%E5%B9%B6%E4%B8%8D%E5%AD%A4%E5%8D%95%E3%80%82″>

这实际上已经%E5%9C%A8%E6%95%99%E8%82%B2%E7%95%8C%E8%BF%9B%E8%A1%8C%E4%BA%86

第二个原因是计算。 Frequentist方法很受欢迎,部分原因是计算它们很容易。 我们的旧频率方法可以使用PHP在几微秒内计算,而我们新的贝叶斯方法在64核计算集群上需要几分钟。 在历史时期(阅读:1990年),我们的贝叶斯方法可能根本不可能,至少在我们这样做的规模上。

但有些人不同意……

所以对贝叶斯方法有很多支持。 虽然没有很多反贝叶斯主义者,但有一些常客和人们普遍认为有更重要的事情需要担心。

例如,安德鲁·安德森(Andrew Anderson)表示,99%的用户并不重要。

《贝叶斯与频繁的A / B测试 - 有什么区别?》 安德鲁安德森:

“他们仍然会得到基本相同的答案,对于他们中的绝大多数人来说,过于相信信心,而不理解模型中的假设。 在那些情况下,Frequentist更容易使用,他们也可以减少试图找出先辈等的心理成本。“

对于能够对先验进行建模并了解贝叶斯提供的答案与频率论方法的差异的群体,贝叶斯通常更好,但实际上在小数据集上可能更差。 两者同样受到方差的影响,尽管贝叶斯方法倾向于更好地处理有偏差的人口分布,因为它们比高斯频率论方法更适应。

话虽这么说,几乎所有a / b测试的问题都不在于如何衡量信心,而在于他们选择比较和意见验证与勘探和开发的关系。 将谈话从简单化的信心措施转移到多臂强盗思想之类的事情远比担心如何决定信心更有价值。 老实说,大多数团体在计算信心方面要好得多。“

Rob Balon博士对此表示赞同,称贝叶斯与频率论者的论证与A / B测试的相关性并不高:

《贝叶斯与频繁的A / B测试 - 有什么区别?》 Rob Balon博士:

“在随后的分析中,概率统计数据通常不会在很大程度上被使用。 Bayesian-Frequentist论证更适用于在A / B范式中测试的变量的选择,但即使大多数AB测试者都违反了研究假设,概率和置信区间的地狱。

进一步阅读:

工具和方法

大多数工具使用Frequentist方法 – 尽管如上所述,VWO将使用贝叶斯决策。 %E8%B0%B7%E6%AD%8C%E5%AE%9E%E9%AA%8C%E4%B9%9F%E4%BD%BF%E7%94%A8%E6%B1%A4%E6%99%AE%E6%A3%AE%E9%87%87%E6%A0%B7“>

Optimizely%E7%9A%84%E7%BB%9F%E8%AE%A1%E5%BC%95%E6%93%8E%E5%9F%BA%E4%BA%8EWald%E7%9A%84%E9%A1%BA%E5%BA%8F%E6%B5%8B%E8%AF%95%E3%80%82″>

Conductrics%E7%9A%84%E4%B8%8B%E4%B8%80%E4%B8%AA%E7%89%88%E6%9C%AC%E5%B0%86%E6%8A%8A%E6%9D%A5%E8%87%AA%E7%BB%8F%E9%AA%8C%E8%B4%9D%E5%8F%B6%E6%96%AF%E7%9A%84%E6%83%B3%E6%B3%95%E4%B8%8E%E7%9B%AE%E6%A0%87%E7%9B%B8%E7%BB%93%E5%90%88%EF%BC%8C%E4%BB%A5%E6%8F%90%E9%AB%98%E5%85%B6%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%BC%95%E6%93%8E%E7%9A%84%E6%95%88%E7%8E%87%E3%80%82″>

虽然,安德鲁安德森认为我们不应该花太多时间来担心它背后的方法。 正如他所说的工具广告不同的方法作为功能:

《贝叶斯与频繁的A / B测试 - 有什么区别?》 安德鲁安德森:

“这就是为什么工具不断推出这一功能并集中大量时间并改进其统计引擎的原因,尽管它为大多数或所有用户提供接近零的价值。 大多数人认为测试是推动他们现有学科的一种方式,因此他们不能让任何人质疑纪律的任何部分,否则他们的整个纸牌屋都会崩溃。“

结论

虽然你可以永远挖掘并找到支持和反对每一方的有力论据,但归结为我们以两种不同的方式解决同样的问题。

我喜欢Optimizely%E4%BD%BF%E7%94%A8%E6%A1%A5%E6%A2%81%E7%BB%99%E5%87%BA%E7%9A%84%E7%B1%BB%E6%AF%94%EF%BC%9A%E2%80%9C%E5%B0%B1%E5%83%8F%E6%82%AC%E6%9E%B6%E5%92%8C%E6%8B%B1%E6%A1%A5%E9%83%BD%E8%83%BD%E6%88%90%E5%8A%9F%E5%9C%B0%E5%B0%86%E6%B1%BD%E8%BD%A6%E7%A9%BF%E8%BF%87%E4%B8%80%E4%B8%AA%E9%97%B4%E9%9A%99%E4%B8%80%E6%A0%B7%EF%BC%8C%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%92%8CFrequentist%E7%BB%9F%E8%AE%A1%E6%96%B9%E6%B3%95%E9%83%BD%E6%8F%90%E4%BE%9B%E4%BA%86%E4%B8%80%E4%B8%AA%E9%97%AE%E9%A2%98%E7%9A%84%E7%AD%94%E6%A1%88%EF%BC%9A%E5%9C%A8A” b>

安德鲁·安德森(Andrew Anderson)也有一种有趣的方式来看待它:“在很多情况下,这场辩论与争论潜水艇上的屏风门的风格是一样的。 这是一个有趣的论据,会改变事物的外观,但是拥有它的行为意味着你会被淹死。“

最后,你可以%E5%9C%A8%E6%B5%8B%E8%AF%95%E4%B8%AD%E4%BD%BF%E7%94%A8%E4%BB%BB%E4%BD%95%E4%B8%80%E7%A7%8D%E6%96%B9%E6%B3%95“>

%E7%89%B9%E5%BE%81%E5%9B%BE%E5%83%8F%E6%BA%90“>

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注