bts防弹少年团演唱会

bts防弹少年团演唱会

如何以正确的方式进行营销实验

《如何以正确的方式进行营销实验》

你需要进行实验。 经历最多实验的人获胜。

但是 – 大多数营销实验都做错了。 缺少的是跨所有跨业务学科的假设驱动测试。

我们日常生活中几乎所有的东西都是实验的直接结果。 我们驾驶的汽车,你用来读这句话的电脑或移动设备,中国的长城,Abercrombie和Fitch的广告 – 所有这些都经过了几个月的多次应用的科学方法,几年,甚至几十年。

“你想要实验。 每隔一段时间,你就偶然发现一些令你心烦意乱的东西。“ – Yelp首席执行官Jeremy Stoppelman

人类一直在使用非正式实验作为一种测试驱动决策的方法,这些决策可能会产生长期影响。 为了确定我们是否会采取某种行动,我们首先构建一个假设,进行实验,分析结果,然后根据可用数据做出决定。 大多数情况下,这个过程只是在几秒钟内无意识地发生。

相对最近,转换优化专家在以A / B测试,可用性测试等形式应用于在线环境时发现了巨大的实验能力。 在本课程中,我们将回顾数字领域中实验的力量,同时还要研究公司可以利用的更广泛的方法来利用它的力量。

到本文结束时,您将理解:

  1. 如何创建一个结构合理的假设
  2. 了解领先和滞后指标之间的差异
  3. 更好地掌握如何将测试应用于Web,电子邮件和可用性平台
  4. 确定精心设计的离线实验的关键指标

我们为什么要测试?

以美国着名的二人组合Orville和Wilbur Wright为例,他们负责发明世界上第一架飞机。 你可能并不感到惊讶,莱特兄弟在他们的第一次尝试时没有启动一个完全建造的飞行机器。 他们最初是从风筝开始的。 兄弟在1899年建造的风筝只有5英尺宽。 它在几个月的时间内被广泛发短信,不断进行改进,增强和再次测试。

《如何以正确的方式进行营销实验》

1901年,兄弟们创建了自己的风洞版本,在那里他们对200多种不同类型的机翼和滑翔机进行了实验,其获胜版本最终将成为1902年历史性动力飞行的基础。

那有什么意义呢? 像莱特兄弟一样出色,他们理解失败的危险。 他们知道如果在载人飞行中出现问题,他们中的一个或两个可能不会再进行第二次尝试。

实验基本上是风险管理。 您是否愿意继续推进数百万美元的竞选策略,并为成功奠定基础,除了希望和祈祷之外什么都没有? 或者,如果您已经在测试样本中取得了巨大成功,您是否会对大规模的商业计划更有信心?

作为商业工具的实验已经在许多现代组织中扎根,成为竞争激励劳动力的必要条件。 Facebook已经组建了自己的研究部门(Facebook研究),微软的ExP平台致力于对在线实验的持续发布,分析和理论探索。

测试,提炼和应用的行为不仅仅是商业的一个重要组成部分,而是生活本身,植根于人类的基础,是生存的无意识必需品。

是什么让一个好的实验?

简而言之,实验是对假设的检验。 假设(如果您跳过补救科学)是基于有限数据的现象的建议解释。

一个好的假设必须是可测试的和可证伪的。 例如,如果我提出我是神秘神秘的假设,因为我可以用第三只眼看到鬼,那么其他人就无法测试或反驳我的断言(除非你碰巧认识斯特兰奇博士)。

可证伪假设的更好例子可能是:

  1. 我相信我的鞋业正在亏损,因为我们的运动鞋定价太高,通过降低成本,我们将销售额增加至少50%
  2. 我相信布鲁斯威利斯已经出演了比尼古拉斯凯奇更高等级的电影,因为他在高预算电影中有更多的经验
  3. 我相信,通过将我们网站上的横幅更改为更能代表我们核心客户人群的内容,访问者将更频繁地转换

所有的假设都以某种形式的“我相信”开头。如果我们的假设是正确的,我们不知道一个事实,否则我们为什么要首先进行测试呢?

接下来是对我们将对控件集(或我们的默认数据)所做的更改的解释,以及如果我们的测试按照我们预测的方式发生我们认为会发生的事情的声明。

尽管看起来似乎如此,但我们永远无法证明一个假设是“真实的”。我们必须始终留下一些怀疑和怀疑的空间。 通过陈述我们从测试中观察到的变化是100%真实的,我们有陷入诱导问题的危险,或者假设经验观察是事实。

例如,如果我的假设是“所有天鹅都是白色的”,那么几乎不可能证明这个假设是正确的(我需要找到世界上每一只天鹅来做出这种说法),但它只需要一只黑天鹅彻底反驳我的想法。

《如何以正确的方式进行营销实验》

出于这个原因,所有假设都有一个相反的称为零假设。 如果我们的假设表明我们认为我们的控制和治疗之间存在一些差异,则零假设表明其相反:没有差异。

假设检验有点像试验。 我们假设“无效,直到证明有罪”,而不是“无罪”。我们必须证明反对空结果的证据如此巨大,如果事实证明确实没有任何区别,我们会非常惊讶。

查看下面的一些零假设示例。

  1. 通过降低运动鞋的成本,销售额不会增加至少50%
  2. 布鲁斯威利斯没有出演比尼古拉斯凯奇更高等级的电影
  3. 如果我们更改我们的网站横幅,访问者将不会更频繁地转换

一旦我们得到假设(表示为HA)和零假设(表示为H0),我们就可以开始考虑将运行什么类型的测试,多长时间以及有多少样本。

花点时间考虑一下你可能有的有趣的测试想法以及如何以假设的形式构建这些测试。 对于您创建的每个假设,记下相应的零假设。

滞后与领先指标

实验的主要目标之一是理解领先指标和滞后指标之间的因果关系。

滞后指标是一个结果。 数据点。 你通常向大老板展示的数字。 收入,下载和注册都是滞后指标的例子。 滞后指标通常很难直接改变,特别是如果您已经建立了产品或服务。 虽然始终有必要跟踪滞后指标以评估持续绩效,但作为营销人员,我们希望了解导致这些指标向上或向下移动的原因。 这就是领先指标的来源。

领先指标是落后指标的“影响者”。 他们预测滞后指标可能会随着时间的推移而受到影响。 问题是它们通常很难确定并且同样难以衡量。

《如何以正确的方式进行营销实验》

例如,客户终身价值的领先指标可能是用户满意度。 这是怎么测量的? 它是否可以准确计算? 满意度是否因访客而异?

虽然很难衡量客户满意度,但影响也更容易。 回想一下你最后一次在商店或网上遇到非常糟糕的经历。 您的满意度有多快变化? 通常,一次令人愉快或糟糕的体验足以让游客永远改变对您品牌的看法。

请看下面一些主要品牌的领先指标。

《如何以正确的方式进行营销实验》

如您所见,领先指标根据品牌和行业的不同而有很大差异。 拥有大量数据(甚至没有数据)的公司会定期参与回归分析等统计工作,以发现领先指标和滞后指标之间的潜在相关性。

您知道滞后指标代表您的业务关键绩效指标吗? 哪些领先指标是这些成功指标的最明确预测指标?

了解哪种类型的指标在推动增长方面最重要,这有助于我们规划更有效的实验。

在继续下一部分之前,列出一些适用于您业务的滞后指标。 常见的例子是收入和转换。 对于每个滞后指标,记下几个您认为与这些指标密切相关的领先指标。

你认为哪种更容易测试?为什么?

A / B测试

A / B测试是主流营销领域中最着名的假设测试类型。 由于Optimizely,Monetate和Adobe Target等DIY网站测试工具的兴起,在2000年代中期推广,A / B测试将先前痛苦且统计严谨的数学过程转变为提高转换率的相对简单的方法。

A / B测试的操作方式很简单:将所有Web访问者随机分成两个或更多组,然后向每个组显示不同的内容集。 这些内容更改可以与复制更改一样小,也可以更改整个网站本身。 当测试在每个变体中有足够的访问者时,通过在测试期间测量关键指标来分析哪个版本具有更好的性能。 应用获奖版本和badabing-badaboom,你刚赚钱! (至少,这是个想法)。

《如何以正确的方式进行营销实验》

我们没有足够的空间或时间在这里对A / B测试进行全面审查,但是CXL在A / B测试方面拥有大量令人惊叹的资源,即使是最具数据意识的营销人员也应该满足。

关于A / B测试工具(如Optimizely,VWO或Google Experiments)需要记住的重要事项是,它们只是自动化标准化测试过程,这是世界各地科学家和研究人员近100年来使用的标准化过程。 在继续之前,让我们来看看该方法的步骤以及它是如何形成的。

  1. 开发测试设计: A / B测试工具允许测试构建器创建一个或多个数字处理,通过浏览器cookie和Javascript调用为独特的访问者提供服务。 这意味着访问网站并看到一个版本的测试的同一用户理论上会继续看到相同的版本,只要cookie在他们的浏览器上持续存在。 这确保了样品是独立的; 关键要求拆分测试。
  2. 随机化:随机化也很重要。 通过随机化发起进入每个测试单元的访问者,A / B测试可以规范异常效应或其他不寻常的偶然事件。 如果没有随机化,您可能会打开潜在的测试破坏抽样错误。
  3. 分析:没有某种形式的统计分析,没有假设检验可以完成。 该分析告诉您每个变体的均值之间的差异可能是多么令人惊讶,并告知我们接受或拒绝原假设的决定(还记得第1节中的那些术语吗?)。

实验的美妙之处在于绝大多数其他类型的测试都遵循完全相同的规则。 因此,重要的是不仅要了解您的测试程序正在做什么,而且要了解它为什么这样做。 一旦清楚,很容易将这些关键原则应用于业务的许多其他领域。

使用A / B测试有哪些其他方法?

A / B测试不仅限于标准的Web更改。 许多工具现在开始在他们的平台上提供这样的解决方案。 让我们回顾一下A / B测试中一些比较流行的用例以及如何利用它们。

电邮测试

A / B测试的一个很好的用途是主题行和电子邮件内容测试。 电子邮件测试可以非常快速地部署到广大受众。 通常,这些测试可以在短时间内返回强大的结果。 许多电子邮件传送解决方案(如MailChimp,Bronto和Campaign Monitor)都在其程序中内置了A / B功能。

《如何以正确的方式进行营销实验》

%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

警告:在使用电子邮件递送服务启动和评估A / B测试之前,您必须非常小心。 这些测试通常不使用任何形式的统计分析,这意味着宣布获胜者仅仅是纯数学观察的结果! 这显然是不科学的,可能为建立在统计模型上的测试程序奠定了基础。

可用性测试

如果您还没有进行可用性测试,那么您应该这样做。 可用性测试是衡量真实用户如何与在线或离线属性的界面和设计进行交互的过程。 虽然您的网站或移动应用程序可能从外部看起来非常好,但如果访问者无法完成关键任务或遇到令人生气的错误,他们将不可避免地具有糟糕的用户体验。 不要低估一个真正生气的用户的愤怒!

有许多不同的测试可用性的方法。 我们可以在单独的Web属性或原型上运行测试,以便发现基准度量以与将来的测试进行比较(此过程称为基准测试)。 我们还可以对一个设计与改进设计进行比较测试,甚至对竞争对手进行比较测试,以了解我们的计划与其他行业领导者相比的直观性。

相当强大的东西吧? 可用性测试的缺点是我们不可避免地要比我们在标准的基于Web的A / B测试中看到的样本量小得多。 但不要担心,我们可以采用大量统计方法来解释样本量较小的测试。

专业提示:如果您进行任何类型的比较意味着推断(又名:“我相信我们的用户将继续以我们观察到的方式行事”),那么您必须参与某种类型的统计分析。

调查

当你进行调查时,你真正在做什么? 除非您计划收到受众群体中每个人的回复(如果您的受众仍在增长,这是不可能的),您将根据样本进行统计推断。 这意味着您也应该对调查数据进行测试。

想要一个值得纪念的经验法则吗? “如果你想比较,没有统计数据要小心。”这个建议不仅适用于数字世界。 任何检查两组或更多组独立数据之间关系的东西都应该通过统计测试进行最佳测试,以确定观察到的结果是由于噪声还是有意义的差异。

在进入下一部分之前需要考虑的一些事项:您的组织目前如何处理比较数据? 贵公司测试什么,不测试什么? 您能否看到任何可能尚未开发的测试机会?

数字框架之外的实验

虽然大多数优化专家都专注于数字测试,但我们在此讨论的实验原理可以应用于业务的任何部分,无论是内部还是外部。 例如:

  1. 测试是否在一小时后打开客户服务线会对客户的看法或投诉产生负面影响
  2. 比较商店的结账时间与自动结账和非自动结账
  3. 测量是否使用调光器,但更具成本效益的灯泡会影响店内的人流量
  4. 测试主要品牌更改(例如名称更改)是否会影响本地化网站访问者的数量

一些商业模式已经使用实验产生了很大的效果。 地铁的QSR(快速服务餐厅)是多产的测试者。 凭借大量的测试科目(特许经营),创新的研发部门以及快速的激活时期,赛百味已经证明它具备构建卓越而有效的测试计划的所有必要因素。

其他大型连锁店,如超市,服装店和家居装饰公司,有能力对产品线,定价,访客流量以及许多其他创意和更广泛的解决方案进行广泛测试。

可以使用当今业务中已存在的数据进行许多测试。 例如,1996年,一家相对较大的超市连锁店“Dominick’s Finer Foods”通过实验发现,捆绑折扣(“2美元1美元”)而不是单个单位折扣(“1美元50美分”)显着增加了购买的单位。 同一家连锁店还发现,优惠券限额为12会大幅增加总单位数量,超过标准优惠券限额4。

在另一个例子中,位于中西部的零售商进行了音乐“分区”的实验,或者在不同部门播放最符合典型消费者人口偏好的某些歌曲。 他们发现,按部门改变音乐会对顾客购买的数量和价值产生重大影响。 上述两个例子都花费了最少的额外资源,但这些测试的效果对底线产生了深远的影响。

离线测试的最佳实践

虽然选择A / B测试的想法是一个相对无风险的练习,如果正确完成(在线测试可以立即停止,QA广泛,等等)离线实验并不那么简单。 每个离线测试都需要一定程度的支持,在某些情况下,投资是一个相当大的财务数字。

选择要测试的内容并不是一个简单的过程,必须经过仔细考虑后才能进行。 在向领导提出离线实验之前,有三条一般准则要遵循。

  1. 它需要吗?
  2. 这可行吗?
  3. 它有利可图吗?

是否需要?:在推出新的实验性商业计划之前,我们应该首先要问的是:客户是否想要这样做?

如果客户对您提供的产品不感兴趣,那么您的测试程序是否有预算在全国范围内向500家商店推出测试并不重要,这将是浪费金钱。

有许多方法可以帮助理解产品或服务是否需要,但现在我们只关注两个方法。 第一个是轻松 – 与您的客户交谈。 询问他们希望看到哪些更改,或者其他功能是否有助于他们的购买体验。

在直接与客户谈论他们的偏好时,谨慎对待领先的问题至关重要。 2009年,沃尔玛开展了一项调查,询问人们是否更喜欢清洁过道。 当绝大多数调查参与者表示同意时,他们认为他们有胜利者。

经过几个月和数百万美元的投资后,沃尔玛发现店内销售量大幅减少。 事实证明,沃尔玛的一个重要方面是商店的观众几乎可以在货架上找到任何东西。 失去“混乱”实际上损害了他们固有的价值主张。 这是一个18.5亿美元的错误。

在另一个例子中,西南航空公司因拒绝增加行间行李,预留座位和食品服务而闻名(尽管他们已经对其中的一些行为进行了遏制)。 原因不是因为该航空公司不专心或不关心其客户,而是因为该航空公司的差异化因素是其低价位和准时服务。 虽然频繁的飞行员可能想要一些额外的功能,但他们并不希望这些功能以现有的额外费用为代价。

揭示客户反馈的第二种方法是通过试点研究。 在将实验推广到10,50或甚至100家商店之前,请测量来自一家或两家商店的回复和反馈。 这些结果会有统计学意义吗? 嗯……可能。 他们会代表您的客户群吗? 可能不是。

然而,衡量客户在野外的体验要远远好于专注于营销人员认为人们想要的东西。 进行定性研究是一种很好的方式,可以吸引游客,并从他们自己的口中听到他们是否认为你的想法是好还是坏。

这可行吗? 确实,实验不应局限于严格的业务目标。 但是,重要的是要考虑可能会因提前测试失败而受到负面影响的预算,资源和潜在指标。

可行性的首要考虑因素是实用性。 你将如何完成这项测试? 在实地执行它需要什么样的资源和人力?

例如,如果您要测试物理位置的不同开放时间,您需要考虑如何为失去的时间补偿员工。 是仅需要更改或选择加入? 管理人员是否会因参与可能损害其底​​线的测试而获得津贴? 是否需要进行本地营销活动以使用户了解这些变化,如果需要,这样的广告投入将花费多少?

它有利可图吗? 有人可能会说这是一种厌倦的思维方式,但任何实验的最终目标都是让公司赚钱。

仔细考虑测试概念是否可能对业务的底线产生影响。 虽然如果测试没有产生结果并不是一件严格的事情,但它也不是最优的。 每项测试都是一项投资,您的目标是确保这些投资尽可能多地获得回报。

想象一下,您正在将产品的价格点从5.99美元调整为4.99美元。 在进行测试后,通过增加利润来抵消从商店的额外客流量中获得的收入。 尽管测试失败了,但你学到了一些重要的东西:人们对价格便宜做出了很好的回应,但并不像你最初认为的那么好!

在转到下一部分之前,请记下您可能有兴趣在公司级别运行的想法列表。 对于每个概念列表,伴随着挑战(预算?利益相关者批准?执行?)以及如何克服这些挑战。

测试非劣效治疗

一般而言,大多数转换优化专家将其大部分精力集中在所谓的“优越性测试”上。优势测试的目标是观察一个或多个变体在特定度量方面是否“优于”控制。 任何希望的结果是“提升”的实验都是优越性测试。

但是,优势测试通常难以运行,甚至更难以验证。 对照和治疗之间的差异越小,需要的样本量越大,以准确地测量这种变化是真实的还是仅仅是噪声。 在数字实验中,大型企业可以检测到小型电梯,因为它们拥有大量的流量。 对于其他所有人来说,投资优势测试通常是浪费时间,而优化测试不是为观察更大的升降机而设计的。

测试治疗是否比对照一定量的实验实际上要容易得多,并且需要的样本量要少得多。 我们不会太深入数学,但请查看Georgi” georgiev> 。

劣效性测试实际上是非常强大的,并且仍然是临床试验的主要内容。

《如何以正确的方式进行营销实验》

2013年,Kohl’s正在寻找显着降低运营成本的方法。 他们决定在跨越100个分支机构的测试中试验早些时候关闭商店。 测试完成后,他们通过减少运营小时数来确定销售额没有显着下降,因此在测试成本方面取得了巨大的成功。

考虑所有可以作为劣势测试运行的实验:删除低利润菜单项,为员工配备少一名员工,测量生产力和效率,在社交媒体上发布频率较低等等。

在转到下一部分之前,请考虑一下今天可以在现场运行的一些节省成本的实验。 你会从这样的实验中得到什么样的结果? 这可行吗? 它需要吗?

理解数学

在关于A” b>的%E7%BB%9F%E8%AE%A1%E6%95%B0%E6%8D%AE%E7%9A%84%E5%B8%96%E5%AD%90%E4%B8%AD%EF%BC%8CConductrics%E5%88%9B%E5%A7%8B%E4%BA%BAMatt” gershoff>

在这些情况下粗略地理解统计数据是不够的。 存在太多隐藏变量,潜在的数学危险区域以及可能对客户和业务产生持久影响的可怕陷阱。

对基本商店元素进行测试或提出可能需要大量资源来开发或启动的新离线功能可能会带来真正的危险。 关于价格点A是否比价格点B效果最好的统计错误可能会在眨眼之间损失数十亿到数亿美元的业务。 因此,掌握基本的数学模型对于适当的离线实验投资来说是100%必不可少的。

实验推理的基础知识

在以任何形式进行测试时,我们最常使用推论统计,这意味着我们的测试结果是行为的预测性衡量标准。 我们不仅仅是观察或编目目前在测试标准下发生的事情,而且还要说明我们如何期望我们的整个访客群体随着时间的推移而表现出来。

推理统计需要一些事情才能正常工作:1,正确的统计检验。 有许多类型的假设检验程序最适合某些样本数量的某些类型的数据。 %E8%BF%99%E4%B8%AA%E6%B5%8B%E9%87%8FU%E5%B8%96%E5%BE%88%E5%A5%BD%E5%9C%B0%E8%A7%A3%E9%87%8A%E4%BA%86%E5%8F%AF%E7%94%A8%E4%BA%8E%E6%B5%8B%E9%87%8F%E6%88%96%E6%AF%94%E8%BE%83%E4%B8%8D%E5%90%8C%E5%8F%98%E9%87%8F%E7%9A%84%E8%AE%B8%E5%A4%9A%E7%B1%BB%E5%9E%8B%E7%9A%84%E6%B5%8B%E8%AF%95%E4%B8%AD%E7%9A%84%E4%B8%80%E4%BA%9B%E3%80%82″>

在决定使用什么统计测试时,重要的是要考虑:

  1. 数据的性质:您是在观察二进制度量还是连续数据? 样本大小是相同还是不同? 什么是自变量? 因变量?
  2. 测试的局限性:时间? 样本量? 对潜在不同人群进行测试? 小或大的预测效果大小?
  3. 您要回答的问题是:您是否想弄清楚哪种变体更优越? 如果它们相同? 测试相关性?

第二种推论统计要求是适当的样本量 。 为了理解为什么样本量很重要,想象一下你想知道光头人是否比长发人更容易被剥夺银行贷款。 你可以对一个秃头的人和一个长发的人进行测试,但只有2个人会告诉你如果我们测试10或10万人会发生什么? 不是很对吗? 通常,个人之间的差异比群体之间的差异要大得多。

《如何以正确的方式进行营销实验》

为了在总体水平上发现这些变化,我们需要有一个代表我们访客人口的样本量。

最后,您必须考虑两个平行的统计概念,称为“重要性”“权力 ”。 简单地说,统计功率是在测试数据中找到实际结果的概率,如果存在效果,则显着性是信号与噪声的比率,表示为数值。

功效和重要性都是测试输入和输出。 为了计算样本量,您必须确定适当的重要性和功率水平。 标准显着性水平(也称为α)为5%,典型功率水平(Or 1-beta)为80%。 这两个值(加上您感兴趣的最小效果)用于确定在80%的时间内在95%显着性水平下观察最小可检测效果所需的测试样本数量。

困惑了吗? 不要担心,在你掌握它之前,我建议您尝试使用下面一个或多个极好且易于使用的统计计算器。

  1. https://conversionxl.com/ab-test-calculator/“>
  2. https://www.analytics-toolkit.com/ab-test-roi-calculator/“>
  3. http://www.evanmiller.org/ab-testing/sample-size.html“>
  4. http://thumbtack.github.io/abba/demo/abba.html“>
  5. https://abtestguide.com/bayesian/“>

在转到下一部分之前,尝试打开Evan Miller的样本量计算器并播放数据。 您需要什么样的样本量才能在20%的转换率下检测到5%的升力,显着性水平为5%,功率水平为80%? 你有什么注意到最小可检测效应与建议的样本量之间的相关性?

针对焦点小组的案例

许多研究人员喜欢焦点小组作为一种测试形式的想法。 在一个房间中将不同的人组合在一起,并围绕相关主题指导讨论,以便为业务决策提供信息。 虽然起初听起来可能是一个好主意(定性数据肯定是开始测试构思的好地方)但焦点小组会议往往成为许多形式的确认偏见的牺牲品。

  • 社会可接受性偏见 :社会可接受性相当于“告诉面试官他们想听到什么。”与客户面对面经常会大大影响他们如何调节他们的语言和行为
  • 面试官偏见 :面试官偏见在焦点小组中也非常真实。 如果面试官看起来很友好和热情,那么与冷漠无情的面试官相比,他们往往会得到不同的答案。 该地区的研究表明,男性和女性面试官的待遇不同,不同种族的面试官也是如此。
  • 随波逐流的影响 :与集体思考相关,当一个人表达意见而其他人同意时,即使他们自己也不会有相同的意见,通常会出现这种情况。

由于上述原因(以及更多原因),最好尽可能避免焦点小组。 Offline observational studies, one-to-one moderated studies or online unmoderated studies using tools like UserTesting.com provide much better qualitative feedback than focus groups as long as you take steps to account for sampling error and bias.

Before moving on to the next section, take a moment to consider how you would choose test samples for an experiment you think might be interesting. Think carefully about the following questions before deciding on your final test group:

  1. Could the way I selected users lead to a bias? (Sampling error)
  2. Could the setup of my test bias users? (Leading questions)
  3. Do I have enough users to be representative of my population?
  4. Do I have enough users to find a result if it exists? (Statistical power)

Socializing Experimentation

A major part of experimentation is spreading awareness, sharing results, evangelizing your program, and demonstrating reliability to stakeholders. Building a culture of experimentation, especially where long established practices have taken root can be a challenging exercise and requires tact.

To begin, try to understand what fears stakeholders might have about testing. Imagine a CMO is hired specifically for their experience building a powerful loyalty program at a different company. What would happen if the existing program performed significantly better than the new version in testing? Would that person still be employed?

It’s important to realize that testing can represent a direct threat to many people’s livelihoods, but it doesn’t have to be this way. It’s incredibly important to give presentations and demonstrations so you can review the power and benefits of testing as a subject matter expert instead of the grand inquisitor of layoffs. When deciding how to socialize results within your business, ask yourself the following:

  1. Who knows about testing?
  2. Who needs to know but doesn’t?
  3. What do different stakeholders need to be comfortable with testing?
  4. Who would benefit most directly from experimentation?
  5. Who is most at risk from not using experimentation?
  6. What are the biggest problems you can help stakeholders solve?
  7. How are you making everyone’s life easier?
  8. When would be the best time or place to raise these issues to the right people?

Once you have the answer to those questions you can set out on your quest for buy-in. (If a culture of optimization already exists, then lucky you! You’re one of the chosen few)

预注册

One of the most important aspects of experimentation is developing a transparent test methodology. In order to have a program that consistently generates results without the of fear statistical errors sneaking up on us, we must abide by the rules of the model we’ve set in place. Of course that doesn’t mean we should blindly take the data at face-value, in fact the opposite is true. However, there should always be a meaningful reason for contesting or disputing the validity of an experiment and a clear methodology will show everyone exactly why and how you performed the test the way you did.

A great way to communicate test structure is through an experimental process called pre-registration. Pre-registration is simple: By recording in advance what testing methodology you use, what you will be analyzing and why, it is far less likely that you fall prey to either type I errors (false positives) or type II errors (false negatives).

《如何以正确的方式进行营销实验》

In order to pre-register your study, create a document that contains the list items below:

  1. Hypothesis (What you expect to happen and the change to be made)
  2. Dependent variables (What are the test outcomes?)
  3. Methodology (What type of statistical test will you use on the data and why?)
  4. Sample size (How will you calculate sample size, and what is the expected number?)
  5. Analysis Plan (Which segments of data will you be analyzing? Which metrics?)
  6. Test Execution Plan (How will this test be run? Where and when?)
  7. Dependencies (What sort of resources will be needed for this test? Budget? Staff?)

Not only does pre-registration give context to your experiments, it also prevents you from engaging in exploratory analysis, which is looking for results in the data until you find something interesting (As the saying goes, “If you torture the data long enough, it will confess to anything!).

结论

According to Mark Zuckerberg and Jeff Bezos, experimentation is one of the key drivers of innovation and success within both Facebook and Amazon. In order to spread a culture that embraces testing as business north star, you must take the time to explicitly share your results widely within the organization. It’s not only important to share wins but to demonstrate how experimentation can answer questions, evolve, and adapt to new business challenges over time.

Be a vocal representative of testing within all parts of the organization, not just whatever branch the testing or optimization team falls under. Marketing, Analytics, Sales, Customer Service, and even Legal could all benefit from a system of tests designed to improve efficiency, effectiveness, or both.

Remember that a solid testing program will not be an overnight success. 这才是重点! Successful experiments are the result of failure, refinement, failure, and THEN success. In the same way it took Orville and Wilbur Wright many years to create their history altering invention, true positive change comes about through many repeated tests, a discerning mathematical eye, and the imagination to create something new.

Happy testing!

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注