bts防弹少年团演唱会

bts防弹少年团演唱会

何时进行多变量测试而不是A / B / n测试

《何时进行多变量测试而不是A / B / n测试》

什么时候应该使用多变量测试,何时A / B / n测试最好?

答案既简单又复杂。

当然,A / B测试是大多数人的默认测试,因为它在优化中更常见。 但是,多变量测试(MVT)也有时间和地点,它可以增加很多价值。

在我们进入细微差别之前,让我们简单地回顾一下这些差异。

什么是多变量测试?

从某种意义上说,多变量测试是一种比A / B测试更复杂的测试形式。 A / B测试非常简单:

《何时进行多变量测试而不是A / B / n测试》

您还可以使用A / B / n测试来测量页面的三个或更多变体的性能。 正如Dynamic Yield的Yaniv Navot %E6%89%80%E5%86%99“>

以下是A / B / C / D测试在概念上的表现:

《何时进行多变量测试而不是A / B / n测试》
图像来源

A / B测试通常涉及更少的组合以及更极端的变化,而多变量测试具有通常具有细微差异的大量变体。

Sitecore的Lars Nielson %E5%B0%86%E5%85%B6%E6%8F%8F%E8%BF%B0%E5%A6%82%E4%B8%8B%EF%BC%9A”>

“多变量测试,反对传统的科学观念。 多变量测试是在实时环境中测试网站上多个组件的过程。 从本质上讲,它可以被描述为在同一页面上同时运行多个A / B / n测试。“

A / B / n测试案例

你应该使用MVT还是A / B / n测试?

如果您有足够的流量,请同时使用两者。 它们都服务于不同但重要的目的。 通常,A / B测试应该是您的默认测试。

通过A / B测试,您可以:

  • 您可以测试更具戏剧性的设计更改
  • 测试通常比MVT花费的时间少
  • 可以为每个变体安装和评估高级分析(例如鼠标跟踪信息,电话跟踪,分析集成等)
  • 学习和客户理论建设仍然可以隔离单个元素和交互效果
  • A / B测试通常会带来更大的收益(因为您经常测试更大的变化)

A / B测试往往可以更快地获得有意义的结果。 页面之间的变化更加激烈,因此更容易分辨哪个页面更有效。

所以A / B测试利用了大变化的力量,而不仅仅是调整颜色或标题,就像MVT的情况一样。 优化器通常会启动所有与A / B测试的交互,因为这是可能获得更大收益的地方

Dynamic” yield>的在线营销总监Yaniv” navot>也提到MVT主要用于较小的调整。 他还提到A / B测试对于多页面和多场景体验更好:

《何时进行多变量测试而不是A / B / n测试》 Yaniv Navot:

“多变量测试倾向于鼓励营销人员专注于几乎没有影响或根本没有影响的小元素。 相反,营销人员应该专注于运行程序化和动态A / B测试,使他们能够为整个站点的多个群组提供分段体验。 使用传统的多变量测试无法实现这一目标。“

使用MVT需要担心的其他问题:您获得的流量。

你得到多少交通?

由于其他变化,多变量测试需要大量流量。 如果流量不高,至少转换率很高。

例如,3×2测试(测试3个设计元素的2个不同版本)将需要与具有9个变体(3 ^ 2)的A / B测试相同的流量。 3×2是典型的MVT测试。

《何时进行多变量测试而不是A / B / n测试》
图像来源

在全因子多变量检验中,您的流量在所有变量之间平均分配,这会增加统计显着性所需的流量。 正如Optimizely%E7%9A%84%E7%BB%9F%E8%AE%A1%E5%AD%A6%E5%AE%B6Leonid” pekelis>

“总的来说,主要要求是运行多变量测试足够长的时间,以便让足够多的访问者能够检测到许多,可能是微妙的交互。”

%E5%AE%9E%E9%AA%8C%E5%BC%95%E6%93%8E%E7%9A%84%E8%81%94%E5%90%88%E5%88%9B%E5%A7%8B%E4%BA%BA也表示MVT更难以执行,因为它需要额外的流量和资源:

《何时进行多变量测试而不是A / B / n测试》 Claire Vo:

“MVT测试需要在技术,设计,设置和分析方面投入更多的资金,当然全因子MVT测试可以燃烧大量流量(如果你有流量支持这种测试方法。)这意味着MVT测试可以对你的转换“预算”来说是一个很大的负担 – 无论是时间,人员,资源还是内部支持。“

根据经验:如果您的流量不超过100,000个/月,那么您最好不要进行A / B测试而不是MVT。 唯一的例外是你有高转换率(10%到30%CR)的%E6%BD%9C%E5%9C%A8%E5%AE%A2%E6%88%B7%E9%A1%B5%E9%9D%A2%E3%80%82″>

此外,如果你是一个早期创业公司并且你仍在进行%E5%AE%A2%E6%88%B7%E5%BC%80%E5%8F%91“>

也就是说,肯定有一些针对MVT的高影响用例。

你什么时候应该使用多变量测试?

多变量测试是关于测量独立元素之间的交互效应,以查看哪种组合效果最佳。 正如Ton Wesseling%E6%89%80%E5%8F%91%E7%8E%B0%E7%9A%84

《何时进行多变量测试而不是A / B / n测试》 Ton Wesseling:

“什么时候使用MVT? 只有一个答案:如果你想了解互动效果。 由于交互效应,无法获得超过1次更改的A / B测试。 一个获胜的新标题可能会被忽视,因为新的英雄镜头将注意力指向页面上的不同位置。 如果你想快速学习页面上哪些元素产生影响:做一个MVT,留下进出当前元素。“

来自VWO%E7%9A%84” chopra>说他会使用MVT来优化几个变量,但不会期望大幅提升。 更多关于多个元素的增量改进:

《何时进行多变量测试而不是A / B / n测试》 Paras Chopra:

“当我使用多个变量进行优化时,我会使用多变量测试,而不是希望进行大范围的摇摆(我们期望在A / B测试中)。 我认为正确的方法是使用A / B测试进行大的更改(例如检修整个设计)等。 A / B测试可以跟进MVT以进一步优化标题,按钮文本等。“

多变量测试的好处

一旦你缩小了领域,MVT对于A / B测试的获胜者的后续优化非常棒。

虽然A / B测试没有告诉你任何关于单个页面上变量之间的交互的信息,但是MVT确实如此。 这可以通过向您展示不同页面元素将产生最大影响的位置来帮助您重新设计。

这在设计着陆页广告系列时尤其有用,例如,即使元素的上下文发生更改,有关特定元素设计影响的数据也可应用于未来的广告系列。

Malwarebytes%E7%9A%84%E4%BC%98%E5%8C%96%E4%B8%BB%E7%AE%A1解释说,MVT用于弄清楚页面上最有影响力的项目是什么,然后更深入地了解它:

《何时进行多变量测试而不是A / B / n测试》 安德鲁安德森:
“这不是’我想看看3件副本,4张图片和一张小型CTA会发生什么。’ 问题应该是最重要的,复制,图像或CTA,以及最重要的事情,我将测试10个版本(并学习一些重要的东西)。“

AB测试永远无法告诉你影响力,MVT可以在正确的时候完成。 ANOVA分析可以为您提供数学影响,或者一个因素影响行为相对于其他因素的相对数量。“

因此,多变量测试的一个重要目标是让您了解您网站上的哪些元素在实现目标方面发挥最大作用。

方差分析? 快速定义

ANOVA%EF%BC%88%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90%EF%BC%89%E6%98%AF%E2%80%9C%E7%94%A8%E4%BA%8E%E5%88%86%E6%9E%90%E7%BB%84%E5%9D%87%E5%80%BC%E5%8F%8A%E5%85%B6%E7%9B%B8%E5%85%B3%E7%A8%8B%E5%BA%8F%E4%B9%8B%E9%97%B4%E5%B7%AE%E5%BC%82%E7%9A%84%E7%BB%9F%E8%AE%A1%E6%A8%A1%E5%9E%8B%E7%9A%84%E9%9B%86%E5%90%88%E3%80%82%E2%80%9D”>

简单来说,在比较两个样本时,我们可以使用t检验 – 但ANOVA%E7%94%A8%E4%BA%8E%E6%AF%94%E8%BE%83%E4%B8%A4%E4%B8%AA%E4%BB%A5%E4%B8%8A%E6%A0%B7%E6%9C%AC%E7%9A%84%E5%9D%87%E5%80%BC%E3%80%82″>

《何时进行多变量测试而不是A / B / n测试》
图像来源

如果你想深入研究ANOVA,这里有一个很棒的视频教程:

[…]“/>

因此,如果存在多变量测试的某些用例,则有某些方法可以执行它们。 运行成功的多变量测试有哪些条件和要求?

多变量测试:如何做对

运行MVT的一个重要条件是:“很多和很多交通,”Paras Chopra说。 因此,运行MVT的大部分准确性意味着了解流量需求并避免误报。

运行MVT时常见的错误

虽然MVT的许多常见错误并不是唯一的(许多也适用于A / B测试),但有些错误特定于多变量方法。 但它们几乎就像你猜的那样:

  1. 没有足够的流量。
  2. 没有考虑到误报的可能性增加。
  3. 不使用MVT作为学习工具。
  4. 不使用MVT作为系统化优化方法的一部分

1.没有足够的交通

我们已经讨论过上面的流量,但重申一下:MVT需要大量的流量。 分数因子方法减轻了这种情况,但是对于这种方法的准确性存在一些问题。

流量需求的增加也提出了一个问题,即你应该期待这个测试需要多长时间。 如果你使用MVT作为一种将东西扔到墙上并看到什么棒(效率低下)的方法,尤其如此。

你应该做的一件事是估计重要结果所需的流量。 使用像计算器%E8%BF%99%E6%A0%B7“>

来自Optimizely的Leonid讨论了解决疯狂流量需求的方法,包括分数因子方法(我们将在下面讨论):

《何时进行多变量测试而不是A / B / n测试》 列昂尼德佩克利斯:

“还有另一种方法可以减少多变量测试中对更多访问者的需求 – 检查更少的交互(例如,只有双向交互)。 这就是分数阶乘设计之类的东西。如果你使用小数阶因而不是全阶乘,你可以减少所需的访问者数量,但你只能看到部分交互图片。 当你看到所有不同的设计方法时,事情变得非常复杂。

如果你没有大量的流量,可以另外使用多变量测试:首先运行一个完整的阶乘,只是为了检查你的所有变化都没有交互来破坏你的网站,你会很快注意到这些,然后切换到运行A / B / n测试看哪些变化优于其基线。“

虽然Conductrics%E7%9A%84%E9%A6%96%E5%B8%AD%E6%89%A7%E8%A1%8C%E5%AE%98

《何时进行多变量测试而不是A / B / n测试》 Matt Gershoff:

无论您决定运行哪种类型的测试,总会有两个步骤:1)数据收集; 2)数据分析。 人们总是可以以多元方式(全因子)收集数据,然后假设没有交互(主效应)或交互(我们甚至可以根据交互的数量来选择交互程度)来分析数据。测试的尺寸)。

这就是为什么,使用全因子设计收集数据是很好的,因为我们可以通过我们选择的任何程度的交互来分析它 – 包括零交互。 至少在数字环境中,唯一的成本是我们需要在数据库中拥有更多的单元来保存所有的测试组合。 如果我们以分数方式收集数据,我们的分析将根据我们使用的分数设计的性质进行约束。

不幸的是,没有免费的午餐。 由于对测试交互的担忧,许多不愿意使用主要效果MV测试的人很乐意建议运行单独的AB测试 – 这也显着地假设没有相互作用效果(独立性)并且需要更多数据来评估。

2.没有考虑到误报的可能性增加。

根据Leonid的说法,运行多变量测试最常见的错误并不是%E5%81%87%E8%AE%BE%E8%AF%AF%E6%8A%A5%E7%9A%84%E5%8F%AF%E8%83%BD%E6%80%A7%E5%A2%9E%E5%8A%A0%E3%80%82″>

《何时进行多变量测试而不是A / B / n测试》 列昂尼德佩克利斯:

“你实际上是为每次互动运行一个单独的A / B测试。 如果您有20个相互作用来测量,并且您的测试程序有5%的发现每个假阳性的比率,您突然期望完全偶然地检测到1个相互作用。

有一些方法可以解释这一点,它们通常被称为多次测试更正,但同样,成本是您需要更多的访问者才能看到确凿的结果。“

我们之前写过关于多个比较问题的文章。 %E5%9C%A8%E8%BF%99%E9%87%8C%E9%98%85%E8%AF%BB

3.不使用MVT作为学习工具。

正如我们在前一篇文章中提到的,优化实际上是“收集信息以通知决策。”MVT最适合用作学习工具。 使用它作为一种推动增量变化并在墙上扔东西的方法是低效的,并且需要时间远离更有影响力的A / B测试。 Andrew Anderson %E5%9C%A8%E4%BB%96%E5%8D%9A%E5%AE%A2%E4%B8%8A%E7%9A%84%E4%B8%80%E7%AF%87%E6%96%87%E7%AB%A0%E4%B8%AD%E8%AF%B4%E5%BE%97%E5%BE%88%E5%A5%BD%EF%BC%9A”>

《何时进行多变量测试而不是A / B / n测试》 安德鲁安德森:

“用于得出结论的花费越少,投资回报率就越高。 移动速度越快,获得下一个值的速度就越快,也会增加程序的结果。 更重要的是,只关注使用多变量作为学习工具,用于告诉我们应用资源的位置。 让我们自由地测试尽可能多的资源以获得最有价值或最有影响力的因素的可行替代品,同时消除对不具有相同影响的因素的等效浪费。 我们的目标是获得结果,过度追求在一个巨大的步骤中进行,而不是更简单的步骤,是傻瓜的黄金。“

4.不使用MVT作为系统化优化方法的一部分

同样,许多MVT错误来自于不知道他们计划做什么或者根本没有测试计划的人。 正如Paras Chopra所说:

《何时进行多变量测试而不是A / B / n测试》 Paras Chopra:

“最大的错误是不知道他们对MVT的期望。 他们是否期望看到最佳的变化组合,或者他们想知道哪个元素(标题,按钮)产生了最大的影响?“

安德鲁·安德森(Andrew Anderson)正确地说,如果你使用A / B或MVT测试只是为了把东西扔到墙上或验证假设,这只会导致个人最优(即自我实现)。他继续说,他说,“正确使用的工具可以最大限度地提高结果,并最大限度地利用资源分配,从而实现组织和全球最大化。”

现在,我在上面提到MVT有不同的统计方法。 他们之间有一些争论。 有关系吗?

全因子,分数因子……重要吗?

有多种不同的多变量测试方法:

  • 全因子
  • 分数因子
  • 田口

这些方法之间也存在一些意识形态的争论。

《何时进行多变量测试而不是A / B / n测试》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

全因子多变量检验

一个%E5%AE%8C%E6%95%B4%E7%9A%84%E5%9B%A0%E5%AD%90%E5%AE%9E%E9%AA%8C%E6%98%AF%E2%80%9C%E4%B8%80%E4%B8%AA%E5%AE%9E%E9%AA%8C%EF%BC%8C%E5%85%B6%E8%AE%BE%E8%AE%A1%E5%8C%85%E5%90%AB%E4%B8%A4%E4%B8%AA%E6%88%96%E5%A4%9A%E4%B8%AA%E5%9B%A0%E5%AD%90%EF%BC%8C%E6%AF%8F%E4%B8%AA%E5%9B%A0%E5%AD%90%E5%85%B7%E6%9C%89%E7%A6%BB%E6%95%A3%E7%9A%84%E5%8F%AF%E8%83%BD%E5%80%BC%E6%88%96%E2%80%9D%E6%B0%B4%E5%B9%B3%E2%80%9C%EF%BC%8C%E5%B9%B6%E4%B8%94%E5%85%B6%E5%AE%9E%E9%AA%8C%E5%8D%95%E5%85%83%E5%9C%A8%E6%89%80%E6%9C%89%E8%BF%99%E4%BA%9B%E5%9B%A0%E7%B4%A0%E4%B8%AD%E9%87%87%E7%94%A8%E8%BF%99%E4%BA%9B%E6%B0%B4%E5%B9%B3%E7%9A%84%E6%89%80%E6%9C%89%E5%8F%AF%E8%83%BD%E7%BB%84%E5%90%88%E3%80%82″>

换句话说,全因子MVT测试具有相等流量的所有组合。 这意味着它是:

  • 在统计上更彻底。
  • 需要大量的流量。

Paras Chopra几年前%E5%9C%A8Smashing” magazine> :

“如果有16种组合,每种组合将获得所有网站流量的十六分之一。 由于每种组合都获得相同数量的流量,因此该方法提供了确定哪种特定组合和部分表现最佳所需的所有数据。 您可能会发现某个图像对转换率没有影响,而标题最具影响力。 因为全因子方法在统计学或测试数学方面没有做出任何假设,我推荐它用于多变量测试。“

分数因子多变量检验

%E5%88%86%E6%95%B0%E5%9B%A0%E5%AD%90%E8%AE%BE%E8%AE%A1%E6%98%AF%E2%80%9C%E5%AE%9E%E9%AA%8C%E8%AE%BE%E8%AE%A1%EF%BC%8C%E7%94%B1%E5%85%A8%E5%9B%A0%E5%AD%90%E8%AE%BE%E8%AE%A1%E7%9A%84%E5%AE%9E%E9%AA%8C%E8%BF%90%E8%A1%8C%E4%B8%AD%E7%B2%BE%E5%BF%83%E9%80%89%E6%8B%A9%E7%9A%84%E5%AD%90%E9%9B%86%EF%BC%88%E5%88%86%E6%95%B0%EF%BC%89%E7%BB%84%E6%88%90%E3%80%82%E2%80%9D”>

因此,部分因子实验通过显示重要组合来测试样本集。 因此,他们需要更少的流量:

《何时进行多变量测试而不是A / B / n测试》
图像来源

尽管如此,一篇Adobe博客文章将分数阶乘设计比作气压计,称“气压计测量大气压力,但其精确测量值与压力方向变化的通知不同。”

同一篇文章%E4%B9%9F%E8%AF%B4“>

“我怀疑花费5个月运行1次单项测试以获得在测试完成时可能不再适用的学习以及通过分析得出的数据是多么有价值。 相反,为什么不采取你的为期一周的部分因子多变量测试的奖金和学习,然后进行另一项测试,建立新的和改进的基线?“

田口多变量测试

这有点深奥,所以最好不要担心。 正如Paras在Smashing” magazine>所写%EF%BC%9A“>

“这是一套启发式方法,而不是理论上合理的方法。 它最初用于制造业,其中进行了特定的假设,以减少需要进行QA和其他实验测试的组合的数量。 这些假设不适用于在线测试,因此您不需要进行任何Taguchi测试。 坚持其他方法。“

进一步阅读: Taguchi” sucks for landing page testing> by Tim” ash>

那重要吗?

如上所述,大多数争论都在于分数因子方法的模糊统计。 我交谈的大量优化器表示他们只推荐全因子。 正如帕拉斯所解释的那样,“很多’部分因子’方法都存在伪科学,所以除非MVT方法被恰当地解释和证明,否则我会坚持全因子。”

然而,有些人,比如Andrew Anderson,认为这些辩论一般都是错误的。 他解释说:

《何时进行多变量测试而不是A / B / n测试》 安德鲁安德森:

“辩论更好,部分或全部因素,在这一点上是无用的,因为你只是在争论大森林中一片叶子的绿色。 应该使用MVT来寻找影响力并集中未来的资源,在这种情况下,它只是一个适合和数据可访问性的问题。 MVT的任何其他用途都完全错过了那艘船,只是突显了缺乏纪律和对优化的理解。“

这真的很重要吗? 我不知道。 如果你%E6%9C%89%E8%B6%B3%E5%A4%9F%E7%9A%84%E6%B5%81%E9%87%8F“>

结论

如果您有足够的流量,请使用两种类型的测试。 每个人对您的优化计划都有不同的具体影响,并且可以一起使用,可以帮助您充分利用您的网站。 这是如何做:

  • 使用A / B测试来确定最佳布局
  • 使用MVT来优化布局,以确保所有元素以最佳方式相互交互。

正如我之前所说,在考虑MVT之前,您需要为您正在测试的页面获得大量流量。

通过A / B测试测试价值主张强调,页面布局(图像与复制平衡等),复制长度和一般眼流等主要元素,并且可能需要2-4轮测试才能解决这个问题。 一旦确定了整体情况,现在您可能想要使用MVT测试交互效果。

但是,请确保您的优先级与测试程序一致。 Peep曾经说过,“我与之谈过的大多数顶级代理商都会为每1 MVT运行~10次A / B测试。”

%E7%89%B9%E5%BE%81%E5%9B%BE%E5%83%8F%E6%BA%90“>

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注