bts防弹少年团演唱会

bts防弹少年团演唱会

顶级专家的高级A / B测试小组[视频]

《顶级专家的高级A / B测试小组[视频]》

CXL” live> 2015上,我们有一个惊人的A” b>面板,其中包括来自Booking.com的统计和测试大师Lukas Vermeer,来自Conductrics的Matt Gershoff和来自Electronic Arts的Yuan Wright。 观众问了一些最艰难的测试问题。 所有人都得到了回答。

观看视频:

注意:当CXL Live 2016的门票可用时,请进入电子邮件列表以获得通知。 名单上的人将以预售价格获得。

完整的成绩单:

Peep Laja:对,好的。 好吧,这些家伙不需要再介绍了,因为你已经满足了它们。 所以让我们来做吧。

我们将从一个简单的开始。 一个简单的。 我的测试什么时候煮熟? 我什么时候应该停止测试? 什么应该是我的停止规则? 卢卡斯。

Lukas Vermeer:你的意思是你什么时候做的?

偷看:我什么时候做的。

卢卡斯:你应该事先做出决定。

Peep:很好的答案。 你应该事先做好决定。

Lukas:是的,所以你事先决定要进行多长时间的测试。 。 。

偷看:你怎么做出这个决定?

卢卡斯:你要跑多久了?

偷看:是的

卢卡斯:袁说的是,你使用的是功率计算器。 你说,“这是我的流量,这是我期望的提升,这是我应该运行它的时间。”

偷看:好吧,让我们说我估计,无论如何,20%的提升,我在半小时内得到了结果。 那又怎样? 实施它?

卢卡斯:我至少会经营两个商业周期,这取决于你的业务。 在我们的情况下,这是两个星期。

Peep:您如何确定您的业务周期有多长?

Lukas:嗯,我猜你已经问过客户做出决定需要多长时间,而且我认为你有数据来支持它。

窥视:不要假设任何事情。

Lukas:好的,在这种情况下,可能会询问您的客户做出决定需要多长时间,查看您拥有的会话数据,因此从他们第一次访问网站直到他们进行预订或购买,如何那是多久的? 如果那是几天或几个小时,那么你可以说,“好吧,在我开始实验的初期,有些人会购买实际上没有接触过实验的人。首先是因为当这些人第一次接触到我的网站时,实验没有运行。“

另一方面,在实验结束时,会有人接触到您的实验,但他们会在您的测试结束后进行购买。 因此,只有中间的人才能完全,很好地接触到您拥有完整购买周期的实验。

所以你想要有足够长的时间让你有足够的人在那里。 对于大多数公司来说,这一天的日子差异很大。 对我们来说绝对是有的。 所以一周是最短的。 如果我只做一个星期,那么我将有一个星期一,一个星期二,一个星期三,一个星期四和一个星期五。 所以这就是为什么我说了两个星期,但如果你是一个汽车网站并且人们需要两个月的时间来决定,那么你可能需要更长的周期。

Matt Gershoff:是的,只是为了插话,我认为问题在于,当我们进行在线测试时,我们假设我们正在采取随机样本,但不幸的是我们从未真正采取过随机样本。 我们真的采取了一个方便的样本,那是因为用户向我们展示自己,而我们所做的一切都是随着用户对我们的看法随机分配。

因此,当他谈论周期或流量时,我们真的试图模拟用户的随机样本。 这是一个问题,因此我们必须在这些离散单元中进行阻止。

要考虑的第二个问题是,我认为在你的讨论中你正在讨论它,这个概念可能随着时间的推移会发生变化。 所以,你必须仔细考虑你的交通行为的性质,并且可能是因为Lukas关于强盗的观点,你在某种程度上永远不想关闭测试。 这实际上取决于案件。

偷看:好的。 嗯,Matt,你提到过,她说P值在许多情况下都不再被认为是有用的。 所以P值,一个统计信心,是一个停止规则。 我们应该关心吗? 这是怎么回事?

卢卡斯:人们是否认真这样做? 我能看到一些手吗? 谁停止了90%的测试? 来吧。 没有人? 好。 下一个问题。

偷看:我们不会太难打败你。

卢卡斯:你永远不应该这样做。

偷看:好的。

马特:等等,我想回到那个。 那有点苛刻。 我认为,特别是因为那里有一些其他工具提醒客户,一旦达到阈值就应该停止。 我并没有说没有人认为这是一个价值,但是围绕它有一种争议,但同样,标准的方法就是预先选择你要运行多长时间的测试对于。

偷看:好的。

卢卡斯:好的,让我重温一下。 你过早打电话给测试的那一刻,当我过早地打电话给测试时,我甚至不再看统计数据了。 差异必须如此之大,以至于统计数据无关紧要。 如果您有数千个转化,并且您的变体中有数万个转化,那么统计数据就毫无用处。

任何能够显示G测试编号的工具基本上都会说100%。 如果它在很长一段时间内一直说100%,那么在某些时候你会说,“好吧,好吧。 现在是时候打电话给测试了,“但不是90岁。

Peep:好吧,如果我们有这样的变化,那么它是双倍的,升力是双倍的,样本不会那么长,但是让我们说他们花了四周的时间来进行这个测试。 我们应该在这里得出什么结论? 百分之百的意义。

观众:问题?

卢卡斯:是的,有210位访客 –

观众:问题是什么?

偷看:这是一个有效的赢家吗? 我是否有胜利者并且我宣布,“是的,我会选择A”?

卢卡斯:等等,这是我发给你的那个例子吗?

偷看:是的。

卢卡斯:很酷。

袁赖特:首先,当我看到这个时,这是一个非常小的样本量。 我想知道这个测试运行了多长时间。 真的,我觉得它太小了,甚至打电话。 当我们将Test&Target用于非常大的一面时,我们肯定会尝试在开始查看结果之前使用每个配方的200多个转换,因为样本量太小。 统计随机性是你们非常有统计数据,根据我的判断,这看起来不像是调用结果的样本量。

Lukas:这看起来像一个太小的样本,甚至不能在你的网站上运行测试。 如果这是你在几周内得到的 –

Peep:假设我已经开始进行测试了,已经有三天了,就像是,“嘿,我在这里看到一种趋势。”我的首席执行官说,“是的,我们很敏捷。 我们需要更快地测试。“那么我能发现趋势吗? 你可以说不。

马特:你可以想到也许你有一个趋势。 我不知道,但这又回到了我们采取方便样品的问题。 如果您没有至少在流量的正常时段采样,那么您实际上还没有足够的数据来评估边际效能。

Peep:很棒,所以什么时候应该使用A / B测试? 我什么时候应该做多变种? 我应该什么时候做土匪?

袁:是的,我可以稍微谈谈那个,并随意添加。 强盗,我会留给卢卡斯。

对于A / B测试,我尝试使用相当简单的东西,只是为了配方,或者我实际上尝试使用一英寸主要的侧面更改,一个触及很多东西。 多变量将无法扩展所有更改元素。 我只想使用一个简单的A / B,然后再利用分段,我认为你们都谈过,看看它们,看看新的与重复的营销渠道,不同的客户群以及他们的行为方式。

我使用多变量,通常取决于不同的工具。 例如,如果你使用Test&Target,他们会给你一个贡献元素,但他们真的不给你,基本上你运行一个。 。 。 使用多变量你必须运行A / B将所有这些加在一起,因为他们做了Taguchi方法,这是一个采样,例如,如果它是3×3他们给你八个食谱,但组合实际上是27.那么它是什么是的,它使用Taguchi方法。

因此,他们为您提供每个成功元素的贡献,但他们并不一定有一个配方在那里取得了所有成功。 所以你必须做另一个A / B,所以它很复杂。 我试着跑A / B. 我宁愿它只是一些简单的东西我可以得到它,而不是一个我无法读取结果的非常复杂的东西。 这只是我的个人喜好。

窥视:完美。

袁:对。

Peep:好的,在电子商务方面,有很多不同类型的页面。

卢卡斯:你匆忙吗,偷看?

偷看:我。 我们需要经历很多很多问题。 在电子商务统计数据方面,我有很多页面,产品卡,等等。 因此,如果我在所有这些不同类型的页面上运行这些多个测试,但我们正在测量相同的目标,这是否有意义?

卢卡斯:是的。

Peep:我有一个测试,其中B击败了A,我实施了它,但是在我想要的六个月之后,“一年之后还有那个隆起吗?”

卢卡斯:你应该担心C.比B和A.

Peep:嗯,我有一个SaaS产品而且我花钱购买客户,并且有一个免费的试用注册,但实际上我在试用期结束时赚钱并且它们成为付费转换,实际上付费用户。 那么我怎么知道这些试验注册实际上成了付费用户呢? 我该如何运行测量它的测试?

卢卡斯:你要么测试很长时间,要么找到一个代表人们是否会留下来的代理人。 所以我没有SaaS产品,但我可以想象,如果人们在整个月或前五天使用该产品,那么这是一个很好的迹象表明他们最终会购买。

因此,您可以测试代理度量而不是最终目标,并且可以更快地进行测试,但理想情况下,您希望测试一个真正指示您的底线的指标。 所以在这种情况下你会希望运行更长时间。

Netflix运行测试三个月,因为他们希望人们留在Netflix。 这是他们的目标,他们使用代理来决定他们是要保持测试运行还是尽早杀死它,但最终这是他们正在优化的。

袁:对于这个,如果我在这里添加一件事,看起来在预审期间它是三个,但你想看看付费转换,对吗? 这是客户终身价值。 所以你想看一点时间。 这就是归属开始的时候了吧? 你真的想看,30天后他们回来了吗? 他们拒绝了吗? 他们继续B吗? 客户的终身价值是多少? 除了A / B测试结果之外,我会更进一步,但是请查看您的后端系统,以了解此类客户的长期价值或参与度。

偷看:好的。 我有一个页面。 假设这是一个产品页面。 在我强盗的同时,我可以在同一页面上进行A / B测试吗? 假设我是强盗测试按钮颜色,或者其他什么,并且在同一页面上同时进行A / B测试副本。 我可以这样做,你推荐它吗?

卢卡斯:是的。

袁:是的,这个你可以运行一个,我建议只有一个布局,一个号召性用语。 我会把它设为2×2,因为这基本上是ABCD结果,你可以很快得到。 我会做一个2×2多变量并完成这个。

Peep:让我们说你正在测试一个没有学习的元素。 假设我正在测试一张照片。 我不知道哪张照片效果最好,但无论照片是什么,我都不一定会了解它。 那么我是否有可能在这些事情上运行强盗然后A / B测试我可以学习的东西?

卢卡斯:这些问题很有意思,但如果你的竞争对手是强盗呢? 他正在影响您网站的转化率。 您是否担心您的竞争对手正在进行测试? 不,你没有。 你随机化样本,是的,这有问题,但你不能考虑所有这些。 随意不同意。

马特:我不知道。 我认为在精神上我同意你的观点。 我不知道你是否可能有混乱,想一想,但取决于你的流量如何流入,这取决于你正在运行的强盗的性质。 假设你在自适应运行的测试中有很大的功效。 我们称之为强盗测试,自适应测试,并且分布正在发生变化。 我不确定这会如何影响变体和结果,特别是如果流量以不同的速率进入。 你可以平均一下,我想它应该随机分配给两者。 我不确定,但我认为你是对的。

Lukas:是的,你的抽样随机化应解决这个问题,就像它应该解决更多来自亚洲国家的人一样,因为随机。 总有一些事情会影响您的流量组成,这就是您将分配随机分配到基础或变体的原因,因为外部世界正在发生的事情是您无法控制可能会影响结果。 你希望通过随机化样本,你以某种方式 –

Matt:现在你可以做什么,你可以产生一个功能,让系统知道强盗选择是什么,然后你可以跨越你的A / B测试,你可以做一个隐含的多变量测试。 你可以这样分析它。

卢卡斯:所以就像你用语言或地理位置来划分结果一样,你可以根据强盗的说法进行细分。

马特:是的,你可以做到。

卢卡斯:在那次测试中。 所以你可以看一下整个A / B测试的结果,也可以看看强盗选择的每个臂的结果。

偷看:好的,下一个问题。 我们谈到了预先计算样本量,如果我知道有多少交易,但如果我的KPI是RPV,那么每位访客的收入是否有变化?

卢卡斯:是的,那不是二项式,所以我不知道该怎么做。

袁:所以对于这个,如果我可以添加这个,每个访客的收入,它有两个部分,平均订单价值和转换。 你有更多人购买或人们购买更多? 你真的需要进入那个。 弄清楚你将要拉出哪个杠杆,因为计算器可以基于AOV构建,它可以在转换时构建,并且这两个方程式增加为每个访客的收入。 所以打破它。 了解您真正要测量的内容,真正要管理的内容,然后您可以将转换或平均订单值放入计算器中,以计算需要运行的时间。 是啊。

那里有两件事。 它不会得到你想要的东西,因为这是由两部分组成的指标。 你真的需要剥洋葱来弄清楚你究竟要测量的是什么,哪一个是每位游客收入的影响因素? 它可以是平均订单价值,也可以是转换。

Peep:好的,所以很多测试都是无效的,因为它没有正确设置。 那么根据您的经验,这种情况经常发生?

马特:和我们一起,永远不要。

卢卡斯:这取决于开发者。 我不能给你任何名字,但我有多个团队,其中一些开发者比另一个更好。 当你设置测试时,你会说,“这个测试非常重要。 所以我宁愿让Bob设置它。

窥视:太棒了。 那么为每个人运行测试然后进行分段? 或运行针对特定细分的测试?

卢卡斯:你想让他们同步吗? 这取决于决定,对吗? 所以你打算把它们全部放在上面,或者你会考虑把一个装满,另一个不装?

Peep:对于所有细分市场,我正在为所有细分测试同样的事情,并且每个细分市场都是100%。 或者我应该只针对100%的流量运行流量测试并进行测试后细分以分析测试跨段的执行情况?

卢卡斯:不,所以这个设置取决于你愿意接受的决定。 如果您打算对所有平台做出决定/不进行决定,那么为什么要将它们作为单独的测试运行? 单独的测试只有在你说“好吧,也许我想在桌面上而不是平板电脑上”时才有用。

Peep:嗯,假设我的移动流量是20%,桌面是80%。 两周后,测试停止,样本大小完全足够,但我无法停止测试,因为移动部分仍然需要三个多月。 所以很遗憾,因为现在我可以在台式机上测试其他东西,但我不能,因为我需要移动设备的样本量。

卢卡斯:但你已经决定要同时把它们全部放好。

偷看:嗯,我是傻瓜。

Lukas:所以基本上你的手机现在正在桌面上移动。

偷看:好的。 现在,来自观众的问题。 Leho,[听起来像00:18:07]我们有问题吗?

Leho:我们有一个非常有趣的第一个问题。 Lukas可以更好一点吗? 那么Lukas的更好的版本是什么?

卢卡斯:谁说的?

Leho:至少十二个人。

马特:这是一个问题还是请求?

Leho:我不确定。 无论哪种方式。

卢卡斯:不。

Leho:你有它。 这是一个有效的答案。 下一个最高投票问题,如果看起来很有希望,你在A / B测试中改变测试销售的百分比流量的立场是什么? 好的,这是一个很长的问题。

偷看:我们可以在屏幕上显示问答事项吗? 也许艾瓦尔,你能帮忙吗?

Leho:是的,这实际上是有道理的。 我认为他们所要求的是,在测试过程中改变流量分配基本上是对胜利者。

卢卡斯:那是辛普森的悖论,对吗? 这样做可能会使您的结果产生偏差。

马特:嗯,如果你做一个土匪并且你正在进行概率匹配或价值匹配,你会遇到同样的问题。 你正在重新分配。 所以我会说:为什么不呢? 如果你正在尝试进行统计测试并且你处于那种形式主义之下,那么不,你可能不应该这样做。 但如果你把它当作强盗测试,那么它就像是一个强盗问题,对吧? 你有点重新分配。

卢卡斯:我实际上有一个例子,但我需要搭起一台电脑。 窥视?

偷看:什么?

卢卡斯:我有一个这方面的例子,但我可以走到那里展示它吗?

偷看:好的,拜托。 现场演示。

Lukas:现场演示。

Leho:这是Lukas很好。 [边谈00:20:11-00:20:25]

偷看:是的,同时另一个问题。

Leho:VWO与Optimizely,优点和缺点。

马特:没有评论。

袁:哪一个? 什么是第一个?

Leho:VWO,视觉网站优化工具或 –

袁:是的,我没有使用那个。 我没有使用第一个,但我使用了第二个,Optimizely。 它相当轻巧。 我真的认为做一些营销活动类型的优化会很好,但我还没有发现它非常强大。

如果您要更改导航和搜索结果,将其集成到后端系统中,我认为它对于Optimizely来说有点轻量级。 我把它称为手枪工具,我称之为测试和目标的工具是一种大炮工具。 绝对取决于您的目的,您希望以不同的方式进行选择。

Leho:Test&Target是大型组织。

袁:对,它非常发展,但它也很强大,而Optimizely则是快速创新。 你可以做很多营销推动,工具类型。 它不一定需要开发人员,但它的设置很简单,代码可以自己生成,并且测量非常轻量级。 它只是一个轻量级工具。

Leho:好的。

Peep:好的,Lukas,你的演示怎么样?

卢卡斯:是的。 我认为这是个问题。 我可以更改分配吗? 所以这是一个例子,你运行一个星期的测试,你是谨慎的,因为你认为这件事会炸弹,所以你把99%的流量分配到变种A和1%分配到B.你运行了一个星期,你看到这些结果。

这是一个统计上显着的差异,所以你提高了B的流量。你可以去下一个吗? 所以你提高了流量,你现在在第二周分配50/50。 您可以看到,如果您将第一周和第二周的所有数据相加,看起来现在A实际上比B好。所以趋势已完全逆转。 这些都具有统计意义,对吗?

问题是,如果你将这两周加起来,大部分流量都流向了A,而在第二周则流量分成50/50。 因此,在完整的数据集中,A的数据中所有流量的大约三分之二来自第一周,但B的大部分流量都在第二周,如99%的流量。

所以,如果你去找下一个盖伊。

如果我们只采用第二周,我们看到B实际上总是比A好10%,但整体全球转换率逐点下降,是什么? 一些东西。 这可能很容易发生在我们的业务中,例如,如果这是复活节前一周和复活节后一周,这很容易发生。 转换率随时间而变化。

因此,如果您更改分配或两种变体之间的分配方式,您可能很容易遇到这样的问题,即转换率的全局变化开始影响您看到的结果。 因此,如果您更改分发,请重置数据,重置测试,因为您基本上正在进行新测试。

马特:但你一定是。 。 。

偷看:让我们继续吧。 谢谢。 关于优化VWO的问题,谁是我们的活动合作伙伴? VWO。 好的,下一个问题。 伙计们,你能看到这里的屏幕吗?

卢卡斯:马特可以不回应吗?

窥视:低流量网站无法真正运行A / B测试。 那么他们应该怎么做呢?

马特:我不知道。

偷看:稍后跟我说说,怎么样?

卢卡斯:去麦当劳工作?

Leho:进行持续一年的测试? 这比没有好吗?

卢卡斯:把这些人打电话给更多的顾客。 我不知道。 如果难以进行测试,如果您的样本量太小,您真的不得不质疑这是否值得。 这非常类似于如果你有一个销售人员给一百万人打电话并获得一次销售,你就会质疑拥有销售人员的价值。

偷看:对。

卢卡斯:这是一回事。

偷看:好的。 好吧,我们在谈论,抱歉。

袁:是的,第一个问题。 如果您没有足够的流量来运行A / B测试,我会在前后查看。 如果你无法得到结果,为什么还要打扰A / B呢?

偷看:完全是我的观点。 好的,所以A / A测试。 您使用什么等式来消除A / A / B测试结果中的噪声?

袁:首先,关于消除噪音。 你想要从我的理解中运行A / B的原因,如果我提出问题的话我错了,肯定会纠正我,理解什么是噪音,什么是真正的结果。 这就是你运行它的原因。 所以我会考虑AA之间的任何事情都是噪音。 我指的是没有区别或没有意义的区别,这意味着没有噪音,对吧? 但是你想要运行A / A / B的原因是要了解什么是噪音以及什么是真正的提升。 这回答了那个问题吗? 也许我没有,是吗? 好,太棒了。 谢谢。

卢卡斯:你的手指在风中,并试图估计噪音是多么糟糕。 这就是你正在做的事情。 这真的是要了解噪音,而不是在数学上从中扣除噪音。

偷看:好的。 测试的质量保证。 你们使用或使用或听说过任何人使用的任何工具?

袁:我不知道Bookings.com,我们有时使用的是什么,在戴尔,我们实际上开始拥有自己的专业脚本,我们自己的QA脚本,但我真的觉得无论你使用什么工具,请使用人类眼睛,因为脚本不编写任何脚本。 使用人眼只需几次即可查看所有浏览器,不同版本的浏览器,不同的设备,确保它是您正在寻找的。 没有什么比实际看到这个的人更准确。

Leho:这有多可扩展?

袁:那是什么?

Leho:这有多可扩展?

袁:我们已经有一个脚本来运行它。 所以很多时候,当它到达人们的时候,很多东西已经被淘汰了。 所以它具有很强的可扩展性。 现在,当然,你可以用不同的方式建立团队,你可以在一个成本较低的地区建立它,这样你就可以实现区域覆盖,24小时覆盖。 有一种方法可以肯定地扩展它。 我不知道怎么预订。 。 。

受众:是否有一个基本工具可以在任何人使用的样本量之间进行统计抽样?

Peep:Evan Miller的工具很好。

袁:估计交通量 –

Lukas:Evan Miller获胜。

偷看:好的,下一个问题。 我想这是关于袁的演讲。 有关如何构建评估框架以确定是否以及何时需要再次运行以确保升降机仍在实现的任何提示?

袁:对。 我认为这也是我正在谈论的,对吧? 很多时候我使用它,只是为了有一种直觉,如果我预订收入,收入仍然存在。 有时我会使用A / B测试来推动胜利者,临时实施,并将其翻转以查看其中的内容。 所以我会考虑频率,我可能每季度做一次,因为它只是验证工作。 我不想花很多时间。 但是这很好,所以你知道那里是否还有更多的电梯。 所以我会尝试每季度翻一次。 不是一切,而是随机挑选某些东西,看看有什么影响。 是啊。

卢卡斯:很有意思。 我只会跑,我们称之为负面测试。 我只会这样做,如果我想做出决定,将其关闭。 因此,如果没有更多的提升并且没有技术债务,那么在我们的网站上有这个没有成本,我甚至不会运行测试,因为,我将改变什么?

因此,如果这是一个需要在服务器上进行大量计算的功能,或者它需要运行某种脚本或数据库或其他什么,那么你可以说,“好吧,删除它将消除技术债务,这值得运行负面测试。“但是,如果这是一个按钮颜色或副本更改或某些无关紧要的是A或B,那么我不会浪费时间进行负面测试。 对于其他事情来说,这正在考虑我的测试时间。

袁:我完全同意。

窥视:完美。 让我们来看下一个问题。 我猜这又是元。 任何重要的移动设备都会在预订 好吧,他不能透露任何东西,Dell.com,Office Depot。 我一直听到很多关于移动电子商务实施的消息,这些实施并没有带来更好的移动转换。

卢卡斯:他们绝对是不同的东西。 我们确实看到桌面上的胜利被翻译成移动设备,反之亦然。 因此,我们有不同的团队运行它们,并且他们经常联系,“嘿,这有效。 你能试试这个吗?“但这不是一对一的。 在桌面上工作的东西并不总是适用于移动设备,反之亦然。

袁:我同意。 这是艾米今天早上提到的事情之一。 移动转化小于0.0。 我想如果我没记错的话是0.02。 我不打电话给每个名字,但这是一个非常小的转换率。 当你使用它很多次,桌面,你正在使用它,你只是没有看到它,当你的基数是0.01%时,你在哪里看到差异? 有什么关系? 因此,有必要了解目的。 我认为很多手机都是发现的,它不是购买平台。 可能是我在公交车站等着这样做。 所以这是一个不同的使用模式。 如果我错了,请纠正我。 。 。

卢卡斯:上个月我们每天只在手机上进行了100,000次预订。

袁:哦,是的。 所以它在商业上是不同的。 我道歉。 是啊。

卢卡斯:人们正在购买手机。

袁:对。

卢卡斯:很多。

袁:好点。 这可能是一种不同类型的业务,对吗? 人们只是不买500美元的电脑。

卢卡斯:但他们预订了500美元的度假村。

袁:是的,所以你可以看到一个有趣的讨论,有一个不同的业务,并有一个不同的模型。 我希望有一个机会让我们看到,我没有看到很多平台到达那里,是在一起建立多渠道,了解袁在桌面和移动设备上? 我认为这是我很想得到的下一代洞察力。 有了它,您就可以了解桌面和移动设备之间的使用模式。 那只是我的想法。 我个人还没有在手机上看到很多赢家。

Lukas:移动设备的转换率肯定较低。

袁:对。

卢卡斯:也取决于平台。 对于我们平板电脑来说,它比MDOT要高很多。

Peep:我听说有一个数字被抛出,典型的移动转换率是桌面的25%。 这与您的经历类似或根本没有?

卢卡斯:不。

袁:没有。是的,我觉得它有点低。 对我们来说,它有点低。 对于我所看到的,它实际上比它低一点。

偷看:好吧,太棒了。 继续,测试计算器。 我们提到了Evan Miller的样本量计算器。 你推荐的其他任何工具?

马特:你可以实际上,作为一个自己的小练习,你可以参加T考试,只做一点代数,你就可以在Excel中自己做。 所以,如果这是你要做的事情,我建议那样做。

当我在90年代回到代理商时,我们曾经这样做过。 当我们发送邮件活动和诸如此类的东西时,我们会做测试。 这就是我们要做的。 我们只想写自己的小东西。 实际上它只是一点代数。

Peep:当你是博士学习机器人时,生活很轻松,不是吗?

马特:不,我认为这是值得的,因为那时你真的能更好地了解正在发生的事情,你可以理解,实际上当你改变你的N时,随着你增加样本量,你几乎可以做出任何重要的事情。 所以我确实推荐,这是一个值得花几个小时的事情。 这并不难。

窥视:请屏幕。

袁:谁想要这个工具,我知道有几个非常聪明的微软人,实际上是大约10年前很早就开始的福音传播者之一。 他们实际上在网站上有一个计算器。 如果你们那些问过这个问题的人,请给我发一封电子邮件。 我会发送该链接,以便您可以使用计算器,但在您的观点中,您绝对可以建立 –

马特:首先你必须展示你的作品。 你必须将你的工作发送给她,然后她会给你清理版本。

观众:[听不到00:33:00]

偷看:谁?

观众:[听不见00:33:03]

偷看:VWO? 是的,Optimizely也有。 耶,当然了。

好的,下一个问题。 您对存储和组织数百个测试文档的建议是什么? 我希望我的团队能够快速,轻松地参考旧的测试学习。

卢卡斯:你谈到了保质期。 你为什么要这个?

窥视:从过去的测试中学习。 “嘿,我们了解了这一点,并了解了我们的客户。 所以也许他们对这些事情反应良好。“

卢卡斯:你认为那仍然是真的吗?

观众:[音频不清晰00:33:40]

袁:是的,所以有些事情,对不起。 Some of the things when we were in the large organization in which we run about 400-500 tests a year, so this is to your point, there’s a lot of learning. Not necessarily winner, but what didn’t work? Let’s not repeat the things we knew didn’t work in the past. So there are two ways you can do it. You can probably use tools like JERA, just put in the JERA, or you can use confluence pages, but to build a good indexing way to say, “Here’s the test idea, here is the site, here’s the concept, and here are the results.” Easily searchable, right?

So that would be my suggestion, putting in something, like a knowledge base tool, and then building in a way that, don’t attach the carpooling deck. People have to go there and dig. It’s not scalable. Just really structure the way people can search, can look it up very quickly. That would be my suggestion. That’s what we’ve done.

Peep: Awesome.

Audience: [inaudible 00:34:32-00:34:38]

Lukas: Yeah, we use our internal A/B testing tool. Then everything is in one place, so when you start a test you have to write your own hypothesis, and when you end or full-on a test you have to explain why. All these results can be found by anyone in the company, so if you want to know what tests the hotel page team has been running, you can see what they’ve been working on, what worked, and what didn’t. So that’s all custom-built. I don’t know of any tools that will help you do that.

Peep: Awesome. Okay, next question. Regarding unusual variants in A/A tests, have you seen this more or less frequently on different testing platforms like Adobe Target, Optimizely, etc.?

Lukas: Yes. We run lots of A/A tests continuously to check whether the tool is still working. Sometimes they go out of whack. They’ll be more positive or negative than you expect. Usually it’s a bug. 它发生了。 That’s why you run these tests. You run AA to figure out whether the tool is still working.

Matt: I think the question is, they’re trying to pick between this limited set of tools based upon the A/A tests.

Peep: Conductors, anyone?

Matt: I’m just kidding. 我不知道。 [inaudible 00:35:52]

Peep: Poor Lukas. Okay, let’s give other guys one question without Lukas. How do you ensure that your winning tests actually affect the overall conversion increase for bottom line growth?

Yuan: If I may clarify that question, winning test, depending on what KPI-

Peep: Alex, can you clarify?

Alex: Yeah, as all your tests add up, sometimes the overall conversion rate doesn’t increase too.

Yuan: So by the way, it’s kind of funny. We’ve actually done that before. I won’t name names. We’re doing that. Here are the five, six, I need to have 80%, no, I don’t see 80%. I see single digits. This is where I think there is a canceling effect and there is a shelf life. So don’t add it up. That’s to say make it a learning, make it, I just need one better than the other. I don’t know if it’s 20% better, but I just know it’s better. So you can’t add the 20% and the other on top of it and stack it up. It never stacks up together. 我完全同意。 是啊。

Peep: Hey, Lukas. You’re a good boy. You can come back now. All right, Lukas’ presentation talked about the importance of multi-arm bandit testing, but then discussed the need to not continually change test percentages. Could he clarify which he prefers and why?

Lukas: You can answer that.

Matt: That’s directly to you.

Lukas: They asked me not to answer any questions.

Matt: [inaudible 00:37:23]

Peep: Go ahead, Lukas.

Lukas: Sorry, I can’t actually see the whole question here.

Matt: It’s why he used a bandit with varying quantities and not changing the test. The one thing that gave me pause in your answer, and it gets back to this notion of drift or whatnot, is that your response was like, “Well, look, if we do it a week before Easter or the week after, it could be different,” but that’s true if you ran it for the two weeks and those two weeks were right before Easter or three weeks before Easter, and then you’re going to go live forever with those selective results.

The environment can still change out from underneath you anyway. So you’re always kind of facing that risk. In a way the whole methodology is predicated on this type of problem because we run random or certain allocation across a certain time period. Then we make a discreet choice, and then we play one, and that’s like the most extreme version of altering it.

So in terms of a decision problem where we’re just trying to select one from another, I guess it’s okay if we assume that we have a sort of stationary environment. If you want to interpret your statistical results, if that P value or your confidence interval, your standard error is going to have meaning, then you can’t do that, I think.

I think if you’re going to interpret the results under the framework of the null hypothesis testing framework, then you probably shouldn’t, but I’m not certain. But if you just want to use as sort of a selection criteria, then you’re exposed to that risk anyway, always. We’re saying the same thing with the shelf life is the same thing as the notion that your environment changes.

Peep: Okay, so one magical test for every website that always works. 它是什么?

Matt: Free.

Peep: Free?

Matt: Yeah, give it away for free.

Peep: Make everything free?

Matt: Yeah, that works.

Peep: All right. I need to hire and train a conversion optimization guy to work in-house. How would I pick the right person for my company? What tools and resources do you recommend?

Yuan: If you have to pick one, I think the two skill sets are really important. I would literally, if I’m going to hire an A/B testing expert, I would start by going to the UI developer, really just the UI developer, because a lot of the A/B testing is coding. It’s JavaScript. So I would start from there. I would look for there. That’s the one skill set that’s really important.

The second skill set that’s important is the data science analytics element. So these are the two skill sets I would look for for in-house expertise. I wouldn’t look for program management because process can kick in later, but you’ve got to let the tools do their job, having people know how to interpret things. I would go for that before the process itself. Does it answer your question?

Peep: All right, next question. Tell me more about an upper and lower funnel test.

Lukas: This is for Yuan.

Peep: This was in Yuan’s presentation.

Yuan: Yeah, when I say upper funnel, a lot of times I consider the browse layer, the home pages, the navigation pages, product details, and category. I call it upper funnel. The lower funnel is, for example, in the store or in the conversion funnel, like the cart and checkout. The question is, “Can I run this concurrently?” I think Lukas already answered that question. Yes, you can, but before you run that, definitely run, like I said, AA here and a couple of AA here to make sure the traffic is really splitting equally between the recipe. That way you can cancel all the noise when you go down to the funnel.

Audience: [inaudible 00:41:26]

Peep: Hold the mic closer, please.

Yuan: Oh yeah. I was just saying when you run upper and lower funnel, before you run this test, assuming there’s no noise, run this AA and run a couple of AA here to make sure when you split traffic 50/50, when you’re coming down here it’s evenly between these two recipes. That means the noises are canceling out each other. Not necessarily all the time, so you want to watch for that. Once that is proving out to be accurate, then you can run this upper and lower funnel simultaneously without too much worry about the noise in there.

Peep: All right. Two last questions. What are the biases which you are aware of that are influencing your test results or testing strategies? Biases.

Lukas: You mean human biases or statistical biases?

Peep: Confirmation bias? That’s what a bias is. Who asked the question? Jakub?

Jakub: Just anything that you’re aware of that’s influencing your ability to set up you tests.

Lukas: I think one of the speakers already mentioned confirmation bias. That’s definitely one because most of the biases that are influencing the results are human biases, right? So things like confirmation bias or Ikea Effect, the Downwind Effect. “I built this, so it must be awesome.”

Peep: Don’t mind me.

Lukas: I’m scared.

Peep: They asked me to. They made me.

Lukas: I don’t like this game.

Peep: Okay, last question. How do you convince a client to keep testing after several inconclusive tests? The client is saying, “This shit’s not working.” So how do you convince them to keep on trying?

Yuan: If I can give one suggestion, I think it’s a good question. I think we should talk a little bit more. First of all, A/B testing is not a sprint, it’s a marathon. There is that odds ratio of 30%. These are really important statistic to . 。 。 Don’t set an expectation to be here. Start from here. Never over-communicate especially if you want to try to sell it, and above all, run more tests because your odds are the more you run, the chances are you’re going to have to win. If you only run three, the chances are that none of them work.

So it’s setting expectations and using industry common practices and best practices. The level setting, the longevity of the marathon nature, non-sprint nature, is really important. Just don’t oversell, really. 是啊。

Lukas: Yeah, that 30% estimate is actually high. For us it’s much lower.

Yuan: Really?

Lukas: Yeah, because we’ve been doing this for seven, eight years now. At some point every pixel has been touched so many times. We don’t get near the 30% success. I wish we had a 30% success rate. That would be awesome.

Yuan: That’s a really excellent point. When you’re having to start from there, you have a lot of opportunity, you have an easy fix. By the time you get seven to eight years everything is pretty good already. It’s hard to find out what-

Lukas: You run out of low hanging fruit.

Yuan: Exactly. 是啊。

Peep: Well, people want more. You guys are doing a good job, so we’ll keep on going. Hey everybody, if anybody needs to leave, go ahead.

Lukas: So first you spank me and then you want more?

Matt: That’s usually how it goes.

Peep: Okay, okay. Why do all A/B test trend line patterns look the same at the beginning? Why are they always moving around in the beginning, the graphs?

Yuan: That’s an interesting question.

Matt: Why is there so much variance?

Yuan: Yes.

Matt: Because you have small sample sizes so that any deviation that comes in is going to radically move the average around. So if you think about, I don’t know, when you were back in elementary school and you had your weekly spelling tests that maybe you failed every week, so you’d try to go to bed before your father would come home so you wouldn’t get in trouble, but . 。 。

Peep: Which is why you got a PhD.

Matt: On your first couple exams your average score can move around a lot, but then as you keep taking your exams you’re just going to start to converge to a fixed average. So that’s why. 你知道吗? This is going to sound a little flippant, but actually the number one takeaway I would have for everyone in this room is actually literally, go and calculate your own sample size calculator from the T test, the T score, because if you do that you will see why this has happened. You’ll see why you’ll have that variance, because it all comes from the fact that we’re looking at the standard error, and this is going to get a little technical, but it’s divided by the square root of N.

So all of this stuff, all of our confidence, all of the notions of the variance of our samples, it’s all driven by one over the square root of N. That’s the key thing, and I believe that there’s no one in here who can’t just go through that exercise. You’ll be empowered. You won’t have to keep asking anyone, you’ll understand it deeply, and you’ll just be much more comfortable doing all this. So I do think it’s actually a very good exercise. I hadn’t really thought about it before, but I really recommend doing that.

Lukas: You can stop asking us.

Yuan: Yeah, that’s a great suggestion. That’s an excellent point.

Peep: All right. How much do conversion services cost and for what do you charge your clients? Well, these guys are not consultants. They’re not charging anything. They’re being paid by their employer. So if you want to ask me how we charge, approach me later. For Yuan, we are looking at Adobe’s tests. It’s called Adobe Target now, I think.

Yuan: Yeah, it is.

Peep: How valuable do you see Test&Target, and do you believe you have achieved an ROI with it? So cost versus outcome.

Yuan: Yeah, like I said, depending on what your organization is, how big, and how robust, Test&Target, which they call it Adobe Target now, it’s a very technical tool. So you definitely need a developer to be able to cull a lot of this, but it’s very robust. You can test a lot of things. We use that to test actually just things in cart and checkout, which is really incredibly hard. A lot of times a lot of tools are not testable on those areas. It’s very robust.

Now, do I believe in ROI of the tool? I believe in ROI of A/B testing, regardless of the tool. I think it’s the mentality that continuous iteration, believing that A/B testing will make the customer experience better, is going to give you the ROI. Yeah, the tool is just a part of that equation, right? You have tool, you need the people, you need the time, you name it. There is definitely cost associated with that. 是啊。

Peep: Awesome. What does it mean when two treatments cross over each other in your testing tool? Is that a validity threat? Can you clarify the question, anonymous person?

Matt: I think they’re asking about overlapping tests.

Peep: So two tests on the same page running simultaneously? Is that . 。 。 ?

Audience: [inaudible 00:48:41-00:48:50]

Yuan: So the trend is just switching left and right.

Peep: So A was winning, B is winning, A is winning, B is winning.

Yuan: Yeah, so that means these two tests are not statistically significant. There’s no difference just because they’re switching back and forth. If that happens you wouldn’t see the P value to be anywhere near 5%, or 0.05%, excuse me. No, actually 5%. Yeah, because the reason it’s switching is because it couldn’t tell the difference. Today’s better, tomorrow is worse, and you won’t get to the confidence there. I’ve seen something there like that in . 。 。

Lukas: Unless you have some very weird seasonality thing going on, but that’s very unlikely.

Yuan: Or today A is better than B, tomorrow B is better than A. So basically it’s . 。 。

Lukas: But it’s probably random.

Yuan: Yeah, statistically insignificant results, basically. 是啊。

Peep: Any thoughts on the new Optimizely stats engine?

Matt: My understanding . 。 。 I don’t know if I should say anything. You can look it up. I think it’s based on the Wald Likelihood test, the sequential Wald Likelihood test. So you can wiki that. I guess I’m not going to talk about Optimizely.

My sense though, that in general you really don’t want to be using the P value as a stopping rule. So whether or not that’s what’s happening here with the sequential testing, I’m not sure, but if it is, there’s an additional risk which is called the “Magnitude Bias”. One of the issues with using a P value for a stopping rule, along with all the other reasons, is that you’re basically putting a threshold on how large of an effect size you can see between the two, right? That’s really when we want to estimate our lift.

It’s like, let’s say, the difference between A and B. If you stop it using the P value at a certain point, you’ll only see magnitudes that are quite large because those are the only differences that would be statistically significant. Because of that, results that you get from doing an early stop with a P value, on average, will have higher magnitude or a higher effect size than if you didn’t because they’re conditioned on it.

So that is probably one of the reasons why we also tend to see, if you do that, you see these regressions back to the mean. There may be an effect, but whatever effect you see is going to be biased, in absolute value, much larger. So that’s an issue. I understand even in sequential tests, that’s still an issue.

Lukas: You’re pretty much always overestimating the effect size.

Matt: You have to overestimate the effect size.

Lukas: My understanding of what Statue Engine is doing is they test to the power of one to tweak the P value as the test is going on. So they lower the threshold. The thing is, “statistically significant” doesn’t mean “business-wise significant”, right? You can have something that’s statistically significant and completely irrelevant to your business. So that’s one.

The other thing is that by doing this they’re controlling for a false positive. So you have less false positive, and that’s good for them because that means when the test is positive, that is more likely a real result. Now, that’s what Optimizely wants because they’re selling you a tool that helps you do testing, and then they want you to find results that are real. What it also does is it increases the false negatives. So you have less false positives, less times when you thought there was an effect when there wasn’t, but you’re also missing more real results.

As a scientist I think this is great, because I want real results. As a bandit I think this is terrible because I am missing things that are actually helping my business because I am being a dick about my P value.

Matt: I’m going to just gently disagree with you.

Lukas: Come on, violently. Come on. 我们做得到。

Matt: No, no, but you do have this magnitude bias though, regardless. I’m not going to talk about Optimizely, but if you’re doing that type of process, it’s just something to keep in mind if you want to use it, because if you’re forecasting you’re going to be upward-biased. 我会留下它。

Lukas: Yeah, I agree.

Peep: All right. I think we have achieved the stopping rule because people want to know what’s for dinner. So thank you so much, guys.

Matt: Thank you.

Lukas: Thank you.

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注