bts防弹少年团演唱会

bts防弹少年团演唱会

A / B测试掌握:从博客文章的初级到专业版

《A / B测试掌握:从博客文章的初级到专业版》

A / B测试 – 关于它的所有内容,人们仍然搞砸了。 从测试错误的东西到错误地运行A / B测试,有很多方法可以解决它。

这是我们将在本教程中介绍的内容:

  1. 什么是A / B测试?
  2. 如何提高A / B测试结果
  3. 如何确定A / B测试假设的优先级
  4. 运行A / B测试需要多长时间
  5. 如何设置A / B测试
  6. 如何分析A / B测试结果
  7. 如何存档过去的A / B测试
  8. A / B测试统计
  9. A / B测试工具和资源

  • 《A / B测试掌握:从博客文章的初级到专业版》
  • A / B测试掌握

    通过CXL

    以电子书的形式下载这篇文章。 您还将收到一些带有其他有用的A / B测试内容的后续电子邮件。

  • 此字段用于验证目的,应保持不变。

什么是A / B测试?

A / B测试在控件和变体之间分配流量50/50。 A / B分裂测试是%E6%97%A7%E6%8A%80%E6%9C%AF“>

当研究人员测试新药的功效时,他们使用“分裂测试”。实际上,大多数研究实验可以被认为是“分裂测试”,完成了假设,对照,变异和统计计算结果。

而已。 例如,如果您运行简单的A / B测试,则原始页面与变体之间的流量分配为50/50:

《A / B测试掌握:从博客文章的初级到专业版》
A / B测试在控件和变体之间分配流量50/50。

对于%E8%BD%AC%E6%8D%A2%E4%BC%98%E5%8C%96“>

此外,测试新药需要几乎一定程度的准确性。 生活在线。 从技术角度来说,您的“探索”时间可能会更长,因为您希望确定您没有犯下%E7%B1%BB%E5%9E%8BI%E9%94%99%E8%AF%AF%EF%BC%88%E8%AF%AF%E6%8A%A5%EF%BC%89“>

在线,A / B拆分测试流程考虑业务目标。 它衡量风险与回报,探索与剥削,科学与商业的关系。 因此,我们使用不同的镜头查看结果,并使决策与运行测试的决策不同 一个实验室

当然,您可以创建两个以上的变体。 具有两种以上变化的测试称为A / B / n测试。 如果您有足够的流量,您可以根据需要测试尽可能多的变体。 以下是A / B / C / D测试的示例,以及每个变体分配的流量:

《A / B测试掌握:从博客文章的初级到专业版》
A / B / n测试在控件和多个页面变体之间平均分配流量。

A / B / n测试非常适合实现相同假设的更多变体,但它们需要更多流量,因为它们将它分成更多页面。

A / B测试虽然最受欢迎,但它们只是一种在线实验。 您还可以运行多变量和强盗测试。

A / B测试,多变量测试和强盗算法:有什么区别?

A / B / n测试是对照原始页面运行一个或多个变体的受控实验。 结果比较了基于单个变化的变化之间的转换率。

多变量测试测试页面的多个版本以隔离哪些属性会产生最大的影响。 换句话说, 多变量测试就像A / B / n测试一样,他们根据变化测试原始测试,但每个变体包含不同的设计元素。 例如:

《A / B测试掌握:从博客文章的初级到专业版》

每个元素都有特定的影响和用例,以帮助您充分利用您的网站。 这是如何做:

  • 使用A / B测试来确定最佳布局。
  • 使用多变量测试来优化布局并确保所有元素在一起很好地交互。

在考虑多变量测试之前,您需要大量流量到您正在测试的页面。 但是如果你有足够的流量,你应该在优化程序中使用这两种类型的测试。

大多数机构优先考虑A / B测试,因为您通常会测试更重要的变化(具有更大的潜在影响) 因为它们更容易运行。 正如Peep曾经说过的那样,“我与之谈过的大多数顶级代理商都会为每1 MVT进行10次A / B测试。”

%E5%BC%BA%E7%9B%97%E7%AE%97%E6%B3%95%E6%98%AFA” b n>

本质上,强盗算法首先将流量发送到两个(或更多)页面:原始和变体。 然后,为了“更频繁地拉动获胜老虎机臂”,算法根据哪种变化“获胜”进行更新。最终,该算法充分利用了最佳选项:

强盗测试的一个好处是强盗减轻了“遗憾”,这是你在测试可能更糟的变化时遇到的失去的转换机会。 谷歌的这张图解释得非常好:

强盗和A / B / n测试都有一个目的。 一般来说,土匪非常适合:

  • 头条新闻和短期活动;
  • 规模自动化;
  • 目标;
  • 将优化与归因相结合。

无论您运行何种类型的测试,都必须拥有一个可以提高成功率的流程。 这意味着运行更多测试,赢得更多测试,并进行更大的升降机。

如何提高A / B测试结果

忽略那些告诉你“你可以立即进行A / B测试的99件事”的博文。他们浪费时间和流量。 一个过程会让你赚更多钱。

大约74%EF%BC%85%E7%9A%84%E9%87%87%E7%94%A8%E7%BB%93%E6%9E%84%E5%8C%96%E8%BD%AC%E6%8D%A2%E6%96%B9%E6%B3%95

为了简化%E8%8E%B7%E8%83%9C%E8%BF%87%E7%A8%8B“>

  1. 研究;
  2. 优先;
  3. 实验;
  4. 分析,学习,重复。

研究:获取数据驱动的见解

要开始优化,您需要知道用户正在做什么以及为什么。

然而,在考虑优化和测试之前,要巩固您的高级策略并从那里开始。 所以,按照这个顺序思考:

  1. 定义您的业务目标。
  2. 定义您的网站目标。
  3. 定义关键绩效指标。
  4. 定义目标指标。
《A / B测试掌握:从博客文章的初级到专业版》

一旦知道了自己想去的地方,就可以收集到达目的地所需的数据。 为此,我们建议使用ResearchXL” framework> 。

以下是我们在CXL使用的流程的执行摘要:

  1. 启发式分析;
  2. 技术分析;
  3. 网站分析分析;
  4. 鼠标跟踪分析;
  5. 定性调查;
  6. 用户测试。

启发式分析与我们达到“最佳实践”的程度非常接近。即使经过多年的经验,您仍然无法确切知道什么会起作用。 但是你可以找出机会领域。 正如%E5%85%8B%E9%9B%B7%E6%A0%BC%E6%B2%99%E5%88%A9%E6%96%87%E6%89%80%E8%AF%B4“>

《A / B测试掌握:从博客文章的初级到专业版》

克雷格沙利文:
“我在观察和修复事物方面的经验:这些模式确实使我成为一名更好的诊断医生,但它们并不像真理一样起作用 – 它们指导并告知我的工作,但它们并不提供保证。”

谦卑至关重要。 它也有助于建立一个框架。 在进行启发式分析时,我们会根据以下内容评估每个页面:

  • 关联;
  • 明晰;
  • 值;
  • 摩擦;
  • 分心。

技术分析是一个经常被忽视的领域。 臭虫 – 如果他们身边 – 是转换杀手。 您可能认为您的网站在用户体验和功能方面完美运行。 但它是否同样适用于每个浏览器和设备? 可能不是。

这是一种低悬而且利润丰厚的水果。 所以,从:

接下来是网络分析分析 。 第一件事是第一件事:确保一切正常。 (您会对有多少分析设置被破坏感到惊讶。)

Google Analytics(以及其他分析设置)本身就是一门课程,因此我将为您提供一些有用的链接:

接下来是鼠标跟踪分析 ,其中包括热图,滚动图,点击地图,表单分析和用户会话重放。 不要忘记点击地图的漂亮可视化。 确保您通过此步骤告知更大的目标。

定性研究告诉您定量分析错过的原因 。 许多人认为定性分析比定量分析“更软”或更容易,但它应该同样严谨,并且可以提供与分析相同的重要见解。

对于%E5%AE%9A%E6%80%A7%E7%A0%94%E7%A9%B6“>

最后 %E7%94%A8%E6%88%B7%E6%B5%8B%E8%AF%95“>和经历。

彻底转换研究后,您将拥有大量数据。 下一步是优先处理该数据以进行测试。

如何确定A / B测试假设的优先级

有许多框架可以优先考虑您的A / B测试,您甚至可以使用自己的公式进行创新。 这是一种优先考虑Craig” sullivan>共享工作的方法。

一旦完成所有六个步骤,您发现一些问题 – 一些是严重的,一些是次要的。 每个人分配 发现 进入五个桶中的一个:

  1. 测试。 这个桶是你放置测试的东西。
  2. 仪器。 这可能涉及修复,添加或改进分析中的标记/事件处理。
  3. 假设。 这是您发现页面,窗口小部件或流程运行不正常但未显示清晰解决方案的地方。)
  4. 去做就对了。 这是没有脑子的桶。 去做就对了。
  5. 调查。 如果项目在此桶中,您需要提问或深入挖掘。)

将每个问题从1到5星排名(1 =次要,5 =关键)。 在给出分数时,有两个标准比其他标准更重要:

  1. 易于实施 (时间/复杂性/风险)。 有时,数据会告诉您构建一个需要数月才能开发的功能。 不要从那里开始。
  2. 机会。 根据他们可能产生的变化有多大提升,主观评分问题。

创建包含所有数据的电子表格。 您将获得优先测试路线图。

我们创建%E4%BA%86%E8%87%AA%E5%B7%B1%E7%9A%84%E4%BC%98%E5%85%88%E7%BA%A7%E6%A8%A1%E5%9E%8B%EF%BC%8C%E4%BB%A5%E6%B6%88%E9%99%A4%E4%B8%BB%E8%A7%82%E6%80%A7%EF%BC%88%E5%B0%BD%E5%8F%AF%E8%83%BD%EF%BC%89%E3%80%82″>将数据带到桌面的必要性。 它被称为PXL,看起​​来像这样:

《A / B测试掌握:从博客文章的初级到专业版》

%E5%9C%A8%E6%AD%A4%E5%A4%84%E8%8E%B7%E5%8F%96%E6%AD%A4%E7%94%B5%E5%AD%90%E8%A1%A8%E6%A0%BC%E6%A8%A1%E6%9D%BF%E7%9A%84%E5%89%AF%E6%9C%AC“>

该框架不是猜测可能产生的影响,而是向您询问一系列有关它的问题:

  • 变化是否高于折 ? 更多人注意到了重复变化。 因此,这些变化更有可能产生影响。
  • 变化是否在5秒内变得明显? 向一组人显示控件然后显示变体。 他们可以在5秒后说出差异吗? 如果没有,它可能会产生较小的影响。
  • 它是否添加或删除任何内容? 消除干扰或添加关键信息等更大的变化往往会产生更大的影响。
  • 测试是在高流量页面上运行的吗? 对高流量页面的改进可带来更高的回报。

许多潜在的测试变量需要数据来确定您的假设的优先级。 每周讨论提出这四个问题将有助于您根据数据优先考虑测试,而不是意见:

  1. 它是否解决了通过用户测试发现的问题?
  2. 它是通过定性反馈(调查,民意调查,访谈)解决的吗?
  3. 鼠标跟踪,热图或眼动追踪是否支持这一假设?
  4. 它是否解决了通过数字分析找到的见解?

我们还根据估计的时间将答案包括在内,从而轻松实现。 理想情况下,测试开发人员是优先级讨论的一部分。

分级PXL

我们假设一个二进制比例:你必须选择一个或另一个。 因此,对于大多数变量(除非另有说明),您可以选择0或1。

但我们也希望根据重要性对变量进行加权 – 如果添加/删除某些内容,则更容易注意到实现的简易性。 对于t HESE 变量,我们具体说明事情是如何变化的。 例如,在Changeability of Change变量上,您可以将其标记为2或0。

可定制

我们建立了这个模型,相信您可以并且应该根据对您的业务至关重要的事项来定制变量。

例如,您可能正在与品牌或用户体验团队合作,而假设必须符合品牌指南。 将其添加为变量。

也许你是在一家初创公司,其收购引擎是由SEO推动的。 也许您的资金取决于客户流。 添加类别,“不干扰SEO”,这可能会改变一些标题或复制测试。

所有组织都在不同的假设下运作。 自定义模板可以解决这些问题,并优化您的优化计划。

无论您使用哪种框架,都要让团队中的任何人以及利益相关者都能够系统化和理解。

运行A / B测试需要多长时间

第一条规则: 不要因为达到统计显着性而停止测试。 这可能是具有良好意图的初始优化器所犯的最常见错误。

如果你在达到重要性时调用测试,你会发现大多数升降机并没有转化为增加的收入(毕竟这是目标)。 %E4%BA%8B%E5%AE%9E%E4%B8%8A%EF%BC%8C%E2%80%9C%E5%8D%87%E9%99%8D%E6%9C%BA%E2%80%9D%E6%98%AF%E8%99%9A%E6%9E%84%E7%9A%84“>

考虑一下:当运行1,000%E4%B8%AAA” a> (两个相同页面)时:

  • 1,000个实验中的771个实验在某些时候达到了90%的显着性。
  • 1,000个实验中的531个实验在某些时候达到了95%的显着性。

停止重大测试会产生误报,并排除%E5%A4%96%E9%83%A8%E6%9C%89%E6%95%88%E6%80%A7%E5%A8%81%E8%83%81“>

预先确定样本大小并运行测试整整一周,通常至少两个商业周期。

你如何预先确定样本量? 有很多很棒的工具。 以下是使用Evan Miller工具计算样本量的方法:

《A / B测试掌握:从博客文章的初级到专业版》

在这个例子中,我们告诉工具我们有3%的转换率,并希望检测到至少10%的提升。 该工具告诉我们,在查看统计显着性水平之前,每个变体我们需要51,486个访问者。

此外 意义 等级,有一种称为%E2%80%9C%E7%BB%9F%E8%AE%A1%E6%9D%83%E5%8A%9B%E2%80%9D%E7%9A%84%E4%B8%9C%E8%A5%BF如果实际存在效果, 更有可能检测到效果

出于实用目的,要知道80%的功率是测试工具的标准。 要达到这样的水平,您需要大样本大小,大效果大小或更长持续时间的测试。

没有魔数

很多博客文章 兜售 魔术数字,如“100转换”或“1,000访客”作为停止点。 数学并不神奇。 数学是数学,我们所处理的比这些数字的简单启发式稍微复杂一些。 来自Malwarebytes%E7%9A%84” andrew anderson>

《A / B测试掌握:从博客文章的初级到专业版》

安德鲁安德森:

“这绝不是关于转换的次数。 它是关于有足够的数据来验证基于代表性样本和代表性行为。

只有在最偏远的情况下才能进行100次转换,并且行为中的delta值非常高,但只有在其他要求(如行为随时间,一致性和正态分布)发生时才会发生。 即使这样,它也很可能出现I型错误,误报。“

我们想要一个代表性的样本 我们怎么能这样做? 测试两个商业周期以减轻外部因素:

  • 一周中的天。 您的每日流量可能会有很大差异。
  • 交通来源。 除非您想为专用来源个性化体验。
  • 博客文章和时事通讯发布时间表。
  • 回访者。 人们可以访问您的网站,考虑购买,然后在10天后回来购买。
  • 外部事件。 例如,月中发薪日可能会影响购买。

小样本量要小心。 互联网上充满了沉浸在糟糕数学中的案例研究。 大多数研究(如果他们发布了完整的数字)会显示出版商判断100名访客的测试变化或12到22次转换的升力。

一旦你正确设置了一切,在测试结束前避免偷看(或让老板偷看)测试结果。 这可能导致由于“发现趋势”(不可能)而提前调用结果。 你会发现很多测试结果都回归到了平均值。

回归均值

通常,您会在测试的前几天看到结果差异很大。 果然,随着接下来几周的测试持续,他们往往会趋同。 以下是电子商务网站的示例:

《A / B测试掌握:从博客文章的初级到专业版》
  • 第一 几天:蓝色(变种#3)赢得大奖,每位访客16美元,对手控制12.5美元。 很多人会(错误地)在这里结束测试。
  • 7天后:蓝色仍然获胜,相对差异很大。
  • 14天后:橙色(#4)获胜!
  • 21天后:橙仍然赢了!
  • 结束:没有区别。

如果你在不到四周的时间里打电话给你,你就会得出一个错误的结论。

有一个相关的问题:新奇效果。 你的变化的新颖性(更大的蓝色按钮)更多地关注变化。 随着时间的推移,升力消失,因为变化不再是新颖的。

这是与A / B测试相关的许多复杂问题之一。 我们有一些专门讨论这些主题的博客文章:

你能同时进行多个A / B测试吗?

您希望加快测试程序并运行更多测试-“> 但是你可以同时进行多个A / B测试吗? ?将 它会增加你的增长潜力或污染你的数据?

有些专家说你不应该同时进行多项测试。 有人说没关系。 在大多数情况下, 您可以很好地运行多个同步测试; 极端的互动不太可能。

除非您正在测试非常重要的东西(例如影响您的业务模式,公司未来的东西),否则测试的好处可能会超过数据中的噪音和偶尔的误报。

如果多个测试之间存在较高的交互风险,请减少同时测试的数量和/或让测试运行更长时间以提高准确性。

如果您想了解更多信息,请阅读以下帖子:

如何设置A / B测试

一旦你有一个优先的测试想法列表,就可以形成一个假设并进行实验。 假设定义您认为问题发生的原因。 此外,一个很好的假设:

  • 是可以测试的。 它是可测量的,因此可以进行测试。
  • 解决了转换问题。 拆分测试解决了转换问题。
  • 提供市场见解。 一个明确的假设,您的拆分测试结果为您提供有关您的客户的信息,无论测试是“赢” 还是 “输了”。
《A / B测试掌握:从博客文章的初级到专业版》

Craig Sullivan有%E4%B8%80%E4%B8%AA%E5%81%87%E8%AE%BE%E5%B7%A5%E5%85%B7%E5%8C%85%E6%9D%A5%E7%AE%80%E5%8C%96%E8%BF%99%E4%B8%AA%E8%BF%87%E7%A8%8B%EF%BC%9A”>

  1. 因为我们看到了(数据/反馈),
  2. 我们预计(变化)会导致(影响)。
  3. 我们将使用(数据度量)来衡量这一点。

先进的一个:

  1. 因为我们看到了(定性和定量数据),
  2. 我们期望(人口)的(变化)将导致(影响[s])。
  3. 我们希望在(X个商业周期)期间看到(数据度量[s]变化)。

技术资料

这是有趣的部分:您最终可以考虑%E9%80%89%E6%8B%A9%E4%B8%80%E4%B8%AA%E5%B7%A5%E5%85%B7“>

虽然这是许多人想到的第一件事,但这并不是最重要的。 战略和统计知识方面是第一位的。

也就是说,要记住一些差异。 工具中的一个主要分类是它们是%E6%9C%8D%E5%8A%A1%E5%99%A8%E7%AB%AF%E8%BF%98%E6%98%AF%E5%AE%A2%E6%88%B7%E7%AB%AF%E6%B5%8B%E8%AF%95%E5%B7%A5%E5%85%B7“>

服务器端工具在服务器级别呈现代码。 他们将页面的随机版本发送给查看者,而不会对访问者的浏览器进行任何修改。 客户端工具发送相同的页面,但客户端浏览器上的JavaScript操作原始和变体的外观。

客户端测试工具包括Optimizely,VWO和Adobe Target。 Conductrics具有两者的功能,并且SiteSpect执行代理服务器端方法。

这对你来说意味着什么? 如果您希望预先节省时间,或者您的团队规模较小或缺乏开发资源,那么客户端工具可以帮助您更快地启动和运行。 服务器端需要开发资源,但通常可以更强大。

虽然根据您使用的工具设置测试略有不同,但通常只需注册您喜欢的工具并按照其说明操作,例如在您的网站上放置JavaScript代码段。

除此之外,您需要设置目标(知道转换何时进行)。 您的测试工具将跟踪每个变体何时将访问者转换为客户。

《A / B测试掌握:从博客文章的初级到专业版》
感谢页面可以作为Google Analytics中的目标目标。

在设置A / B测试时派上用场的技巧是HTML,CSS和JavaScript / JQuery,以及用于制作变体的设计和文案技巧。 有些工具允许使用可视化编辑器,但这限制了您的灵活性和控制。

或者,您可以使用Testing.Agency%E4%B9%8B%E7%B1%BB%E7%9A%84

如何分析A / B测试结果

好的。 你已经完成了你的研究, 正确地设置了你的测试 ,并且最终完成了测试。 现在,进行分析。 它并不像您在测试工具中对图表的一瞥那么简单。

您应该经常做的一件事: %E5%9C%A8Google” analytics> 。 它不仅可以增强您的分析功能; 它还可以让您对数据和决策更有信心。

您的测试工具可能无法正确记录数据。 如果您的测试数据没有其他来源,则无法确定是否信任它。 创建多个数据源。 (有关详细信息,请%E9%98%85%E8%AF%BB%E6%AD%A4%E5%B8%96%E3%80%82“>

如果变化之间没有差异会发生什么? 不要太快。 首先,实现两件事:

你的假设可能是正确的,但实施是错误的。

假设您的定性研究表明对安全性的担忧是一个问题。 有多少种方法可以加强对安全的看法? 无限。

游戏的名称是%E8%BF%AD%E4%BB%A3%E6%B5%8B%E8%AF%95“>

2.即使总体上没有差异变化也可能在一两段中超过控制。

如果您为回访者和移动访问者提供了电梯 – 但对于新访问者和桌面用户来说有所下降 – 这些细分可能相互抵消,使其看起来“没有区别”。 %E5%88%86%E6%9E%90%E6%82%A8%E7%9A%84%E6%B5%8B%E8%AF%95%E8%B7%A8%E5%85%B3%E9%94%AE%E7%BB%86%E5%88%86%E6%9D%A5%E8%B0%83%E6%9F%A5%E8%BF%99%E7%A7%8D%E5%8F%AF%E8%83%BD%E6%80%A7%E3%80%82″>

A / B测试的数据分段

在A / B测试中学习的关键是%E5%88%86%E6%AE%B5“>

《A / B测试掌握:从博客文章的初级到专业版》

您可以分析大量细分。 优化列出以下可能性

  • 浏览器类型;
  • 来源类型;
  • 移动与桌面或设备;
  • 已登录与已退出的访问者;
  • PPC / SEM活动;
  • 地理区域(城市,州/省,国家);
  • 新访者和回访者;
  • 新购买者与重复购买者;
  • 高级用户与休闲访客;
  • 男人与女人;
  • 年龄范围;
  • 新的与已提交的潜在客户;
  • 计划类型或忠诚度计划级别;
  • 现有,预期和前任订户;
  • 角色(例如,如果您的网站具有买方和卖方角色)。

至少 – 假设您有足够的样本量 – 请查看以下段:

  • 桌面与平板/移动;
  • 新与回归;
  • 登陆页面的流量与来自内部链接的流量。

确保细分中的样本量足够大。 提前计算,如果在给定的段内每次变化少于250-350次转换则要小心。

如果您的治疗对特定细分市场表现良好,则应该考虑针对这些用户采用个性化方法。

如何存档过去的A / B测试

A / B测试不只是关于升降机,胜利,损失和随机测试。 正如Matt Gershoff所说,优化是关于“收集信息以便为决策提供信息”,而从统计上有效的A / B测试中获得的知识有助于实现增长和优化的更大目标。

智能组织存档他们的测试结果并计划他们的系统测试方法。 优化的结构化方法产生更大的增长,并且通常受局部最大值的限制。

所以这是困难的部分:没有一种最好的方法来构建您的知识管理。

我们写了一篇关于如何存档A / B测试结果的文章 。 一些公司使用复杂的内部构建工具,一些使用第三方工具,一些使用良好的Excel和Trello。

如果有帮助,这里有四个专门为转换优化项目管理而构建的工具:

  1. Iridion“>
  2. %E6%9C%89%E6%95%88%E7%9A%84%E5%AE%9E%E9%AA%8C“>
  3. %E6%88%90%E9%95%BF%E9%BB%91%E5%AE%A2%E7%9A%84%E9%A1%B9%E7%9B%AE“>
  4. %E5%AE%9E%E9%AA%8C%E5%BC%95%E6%93%8E“>

跨部门和高管沟通非常重要。 通常,A / B测试结果对于外行来说并不直观。 可视化有帮助。

Annemarie Klaassen和Ton Wesseling写了一篇%E5%85%B3%E4%BA%8E%E5%8F%AF%E8%A7%86%E5%8C%96A” b>的%E7%B2%BE%E5%BD%A9%E6%96%87%E7%AB%A0“>

《A / B测试掌握:从博客文章的初级到专业版》

A / B测试统计

在分析A / B测试结果时,统计知识很方便。 我们在上面的部分中介绍了其中的一些内容,但还有更多要介绍的内容。

你为什么需要了解统计数据? Matt Gershoff喜欢引用他的大学数学教授的话:“如果你不知道牛奶来自哪里,你怎么能制作奶酪?!”

在深入研究A / B测试统计数据的细节之前,您应该了解三个术语:

  1. 意思。 我们不会测量所有转化率,只是一个样本。 平均值代表整体。
  2. 方差。 人口的自然变异是什么? 这会影响我们的结果以及我们如何使用它们。
  3. 采样。 我们无法衡量真实的转换率,因此我们选择一个(希望)具有代表性的样本。

什么是P值?

许多人不准确地使用术语“统计显着性”。 统计意义本身并不是一个停止规则,那么它是什么以及它为什么重要?

首先, %E8%AE%A9%E6%88%91%E4%BB%AC%E5%9B%9E%E9%A1%BEp%E5%80%BC“>

p值是针对零假设的证据的度量 (对照,在A / B测试用语中)。 p值告诉我们B比A好的概率。

同样地,它没有告诉我们在选择B而不是A时犯错误的可能性。这些是常见的误解。

如果零假设为真,则 p值是看到当前结果的概率或更极端的概率 或者,“这个结果多么令人惊讶?”

《A / B测试掌握:从博客文章的初级到专业版》

总之,当p值小于显着性水平(通常设定为0.05)时,获得统计学显着性(或统计学上显着的结果)。

%E7%BB%9F%E8%AE%A1%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C%E7%9A%84%E9%87%8D%E8%A6%81%E6%80%A7%E4%B9%9F%E5%9C%A8%E4%BA%8E%E6%95%B4%E4%B8%AA%E2%80%9C%E5%8D%95%E5%B0%BE%E4%B8%8E%E5%8F%8C%E5%B0%BE%E2%80%9D%E9%97%AE%E9%A2%98%E5%87%BA%E7%8E%B0%E7%9A%84%E5%9C%B0%E6%96%B9%E3%80%82″>

单尾与双尾A / B测试

%E5%8D%95%E5%B0%BE%E6%B5%8B%E8%AF%95“>允许在一个方向上产生效果。 双尾测试在两个方向上寻找效果 – 正面或负面。

没有必要对此有所了解。 来自Conductrics%E7%9A%84Gershoff%E6%80%BB%E7%BB%93%E5%BE%97%E5%BE%88%E5%A5%BD%EF%BC%9A”>

《A / B测试掌握:从博客文章的初级到专业版》

Matt Gershoff:
“如果您的测试软件只有一种类型或另一种,请不要冒汗。 将一种类型转换为另一种类型非常简单(但是在运行测试之前需要这样做),因为在两个测试中所有数学都是完全相同的。 所有不同的是显着性阈值水平。 如果您的软件使用单尾测试,只需将与您希望运行测试的置信度相关联的p值除以2。 因此,如果您希望您的双尾测试达到95%的置信水平,那么您实际上输入的置信水平为97.5%,或者如果为99%,那么您需要输入99.5%。 然后你就可以把它看成是双尾的。“

如果您愿意的话,可以%E5%9C%A8%E6%88%91%E4%BB%AC%E5%85%B3%E4%BA%8E%E5%8D%95%E5%B0%BE%E5%92%8C%E5%8F%8C%E5%B0%BE%E6%B5%8B%E8%AF%95%E7%9A%84%E6%96%87%E7%AB%A0%E4%B8%AD%E6%BD%9C%E5%85%A5%E5%85%94%E5%AD%90%E6%B4%9E%E3%80%82″>

置信区间和误差范围

您的转化率不仅仅是说X%。 它说像X%(+/- Y)。 第二个数字是置信区间,对于理解测试结果至关重要。

《A / B测试掌握:从博客文章的初级到专业版》
PRWD的置信区间示例。 ( 图片来源

在A / B测试中,我们使用置信区间来降低抽样错误的风险。 从这个意义上讲,我们正在管理与实施新变体相关的风险。

因此,如果您的工具说“我们95%确信转换率为X%+/- Y%”,那么您需要考虑+/- Y%作为误差幅度。

您对结果的信心程度在很大程度上取决于误差幅度有多大。 如果两个转换范围重叠,则需要继续测试以获得有效结果。

Matt” gershoff>很好地说明了误差幅度的工作原理:

《A / B测试掌握:从博客文章的初级到专业版》

Matt Gershoff:

“说你的朋友将来Round Rock参观你,并在下午5点服用TX-1。她想知道应该花多长时间。 你说我有95%的信心,你需要大约60分钟加减20分钟。 因此,您的误差幅度为20分钟,即33%。

如果她在上午11点来,你可能会说,“这将花费你40分钟,正负10分钟”,所以误差范围是10分钟,即25%。 因此,虽然两者都处于95%的置信水平,但误差幅度不同。“

外部有效性威胁

运行A / B测试存在挑战:数据不稳定。

《A / B测试掌握:从博客文章的初级到专业版》
正弦数据

静止时间序列是其统计特性(均值,方差,自相关等)随时间恒定的时间序列。 由于许多原因,网站数据是非平稳的,这意味着我们无法做出与固定数据相同的假设。 以下是数据可能波动的几个原因:

  • 季节;
  • 一周中的天;
  • 假期;
  • 正面或负面的新闻提及;
  • 其他营销活动;
  • PPC / SEM;
  • 搜索引擎优化;
  • 字的口碑。

其他包括%E6%A0%B7%E6%9C%AC%E6%B1%A1%E6%9F%93” b>

贝叶斯或Frequentist统计

贝叶斯或Frequentist A / B测试是另一个热门话题。 许多流行的工具已经重建了他们的统计引擎以采用贝叶斯方法。

这是差异(非常简化): 在贝叶斯视图中,概率被分配给一个假设。 在Frequentist视图中,在不指定概率的情况下测试假设。

拥有统计学和市场研究博士学位的Rob” balon>博士表示,这场辩论主要是从象牙塔中进行深奥的摇摆。 “事实上,”他说,“大多数从象牙塔出来的分析师都不关心,如果有的话,关于贝叶斯与弗雷克蒂安。”

不要误解我的意思,每种方法都有实际的商业含义。 但是如果你是A / B测试的新手,还有更重要的事情需要担心。

如果您想了解更多信息,请%E5%8F%82%E9%98%85%E6%88%91%E4%BB%AC%E5%9C%A8%E8%B4%9D%E5%8F%B6%E6%96%AF%E4%B8%8EFrequentist” a b>

A / B测试工具和资源

本指南中包含大量链接到外部资源:文章,工具,书籍等。为了方便您,这里有一些最好的(按类别划分)。

A / B测试工具

有许多在线实验工具。 以下是53%E4%BD%8D%E4%B8%93%E5%AE%B6%E8%AF%84%E5%AE%A1%E7%9A%84%E8%BD%AC%E6%8D%A2%E4%BC%98%E5%8C%96%E5%B7%A5%E5%85%B7%E3%80%82” b>

A / B测试计算器

A / B测试统计资源

A / B测试/ CRO战略资源

结论

A/B testing is an invaluable resource to anyone making decisions in an online environment. With a little it of knowledge and a lot of diligence, you can mitigate many of the risks that most beginning optimizers face.

If you really dig into the information here, you’ll be ahead of 90% of people running tests. If you believe in the power of A/B testing for continued revenue growth, that’s a fantastic place to be.

Knowledge is a limiting factor that only experience and iterative learning can transcend. So get testing!

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注