bts防弹少年团演唱会

bts防弹少年团演唱会

测试内容标题的错误(和正确)方法

《测试内容标题的错误(和正确)方法》

在流量获取方面,这笔钱是标题。

但测试内容标题会带来一系列独特的问题。

A / B测试内容标题面临的挑战

测试内容标题可能非常有价值。 显然。

看看Upworthy,BuzzFeed或Huffington Post。 他们在发布必须点击的头条新闻方面取得了巨大的成就(对他们有利,对我说的人类不利)。 当然,他们会测试它们。

《测试内容标题的错误(和正确)方法》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

当您测试着陆页的元素 – 比如说您正在测试几个不同的英雄图像 – 您可以%E9%80%9A%E8%BF%87%E7%9F%AD%E6%9A%82%E7%9A%84%E2%80%9C%E6%8E%A2%E7%B4%A2%E2%80%9D” b>

然而,标题通常在其价值方面具有有限的寿命。 也就是说,今天的一篇文章明天不会有那么多的价值,第二天就会有更少的价值 – 尤其是在一个能够提供大量及时内容的媒体网站上。

因此,需要4周才能达到显着性和%E6%9C%89%E6%95%88%E6%80%A7%E7%9A%84A” b>

即使你告诉自己你正在“学习”哪种类型的标题通常效果更好,那也是一种%E5%8F%99%E4%BA%8B%E8%B0%AC%E8%AF%AF“>

此外,内容标题测试中存在许多固有的混淆变量(这就是为什么它们与其他现场元素相比如此棘手),例如:

  • 文章的内容。
  • 您使用的任何图像。
  • 一天,一周,一年的时间。

有时,标题测试也可以赢得参与(更多人点击文章),但人们在页面上花费的时间更少(对于媒体网站,这通常是一个不好的迹象),或者他们没有完成所需的操作(例如点击关于网站上的CTA)。

有许多博客文章谈论A / B测试内容标题,但他们所执行的并不是真正的A / B测试 – 至少不是正确/有效的。 以下是我见过的一些方法,以及一些可能不像您想象的那样具有启发性的原因。

社交媒体作为测试代理

测试内容标题的最常见解决方案是通过社交媒体测试不同的变体,通常是在Twitter上。 这种方法很受Buffer的欢迎, %E4%BB%96%E4%BB%AC%E6%80%BB%E7%BB%93%E4%BA%86%E8%BF%99%E6%A0%B7%E7%9A%84%E8%BF%87%E7%A8%8B“>

“我们的具体标题流程如下:

– 对于每个帖子,我们头脑风暴五到十个头条新闻,并在营销团队中决定哪些是我们最喜欢的。

– 第一步的获胜者成为我们的考生。 我们采用三个标题变体并将其作为我们的Buffer Twitter帐户的更新发布。 理想情况下,我们可以将它们放在一起(例如,早上或下午都是),我们可以获得更可靠的数据。

– 我们在缓冲分析中跟踪结果,以查看哪个标题表现最佳。 获胜者成为帖子的新标题(或保持不变,取决于我们开始时)。“

在这里发现问题并不难。

首先 – 这不容易解决 – 观众不是随机的。 我可以看到并点击两种变化。

其次,如果他们在不同的时间发送推文 – 比如第一次是在上午9点,第二次是在上午11点 – 由于时间变量,结果会出现偏差。 也许更多人在上午11点阅读你的推文。 也许他们当时更加投入。 没人知道。 A / B测试的要点是%E6%8E%A7%E5%88%B6%E5%A4%96%E9%83%A8%E5%8F%98%E9%87%8F%EF%BC%8C%E4%BE%8B%E5%A6%82%E6%97%B6%E9%97%B4%EF%BC%8C%E8%BF%99%E6%A0%B7%E5%B0%B1%E5%8F%AF%E4%BB%A5%E5%9C%A8%E8%A1%A8%E4%B8%8A%E7%95%99%E4%B8%8B%E5%8F%98%E9%87%8F%E3%80%82″>

第三,他们不是在寻找一个单一的指标,而是根据多个指标来观察哪一个更好。 转推,收藏,提及等

这是他们的第一个版本:

《测试内容标题的错误(和正确)方法》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

第二个(他们宣称获胜者):

《测试内容标题的错误(和正确)方法》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

因为有更多的提及和转推,他们统治第二个赢家。 然而,点击和潜力在“失败”变化上更高。 我并不是说他们与胜利者做出了错误的决定,但是我说如果你没有对“胜利”测试的明确定义,那么你就是在%E7%A1%AE%E8%AE%A4%E5%81%8F%E8%A7%81“>

此外,它可能是同一个人转发和偏爱两者(特别是在Twitter上的所有那些自动转发机器人)。

公平地说,他们%E7%A1%AE%E5%AE%9E%E6%89%BF%E8%AE%A4%E4%BA%86%E4%B8%80%E4%BA%9B%E7%BC%BA%E7%82%B9“>

“当然,也可能最好指出社交媒体上的A / B测试并不完美。 我们在测试中使用的不同时间可以产生重要变量,我们用于与标题共享的图像也是如此。 最后,我们只是希望获得任何优势,使我们的观众更有意义的标题,这个Twitter测试到目前为止一直是一个有用的指标。

使用Facebook广告测试标题

作为控制其中一些变量的方法, Pizza” seo>使用Facebook广告在更受控制的样本上测试内容受众。

他们所做的基本上是根据兴趣设置Facebook自定义受众。 虽然你不能均匀地分割年龄,但是通过像这样分割他们的测试组,它们确保了很少的重叠:

《测试内容标题的错误(和正确)方法》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

所以21-22在A组,23-24在B组,等等。

然后他们制作了两个只有标题不同的广告(当然,他们也可以像照片一样测试其他元素):

《测试内容标题的错误(和正确)方法》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

通过这种方式,他们能够计算出足够的样本量,并根据点击率让测试结果显着。 除此之外,他们还设置了UTM参数来跟踪每个变体的现场行为:

《测试内容标题的错误(和正确)方法》
%E5%9B%BE%E5%83%8F%E6%9D%A5%E6%BA%90“>

这种在社交媒体上的测试版本优于上面的Twitter版本,但仍然存在一些缺点。

一,广告的成本(可能不是太多,但仍然,它加起来)。 然后是两个,更重要的是,是为每篇文章实施测试的时间成本。 如果您发布了很多内容,那么您可能会花费相当多的时间来测试无关紧要的更改,而您可能会做更重要的事情。

通过电子邮件测试内容标题

Campaign” monitor>他们A / B使用电子邮件测试他们的头条新闻:

“Campaign Monitor会将一个版本的电子邮件发送到列表的一部分(我们选择将每个版本发送到列表的10%),将另一个版本发送到另一部分。 然后它会测量结果并自动将效果最好的电子邮件发送到列表的其余部分。

除了添加额外的主题行之外,与发送普通电子邮件活动相比,发送主题行测试几乎没有额外的工作。“

如果您有足够大的列表,您可以将测试发送到列表的一小部分(比如说10%)。 然后,一旦你认为是“胜利者”,就修改你网站上的标题,并将该标题发送到列表的其余部分。

这个想法是只测试一部分流量可以扩展到实际文章本身(如果你有足够的流量)。

测试一小部分流量

与您使用电子邮件主题行可以执行的操作类似。 发送到列表的10%,然后根据该数据决定将哪个版本发送给其余版本。 显然,赫芬顿邮报就是这样做的(或至少习惯于根据2009%E5%B9%B4%E5%B0%BC%E6%9B%BC%E5%AE%9E%E9%AA%8C%E5%AE%A4%E7%9A%84%E6%96%87%E7%AB%A0“>

“所以这里有一些非常棒的东西:赫芬顿邮报将A / B测试应用于其中的一些头条新闻。 读者随机出现在同一个故事的两个标题之一。 五分钟后,对于这样一个人流量大的网站来说已经足够了,点击次数最多的版本就成了每个人看到的木材。“

如果你有流量,这是一个坚实的方法。 从技术上讲,它是一种被称为“ epsilon-first” huffpo b>

多武装强盗测试

想象你在赌场。

有许多不同的老虎机(称为“单臂匪徒”,因为它们以抢劫你而闻名),每个都有一个杠杆(和手臂,如果你愿意)。 您认为某些老虎机的支付频率比其他老虎机更频繁,因此您希望最大化这一点。 你只有有限的资源 – 如果你拉一只手臂,那么%E4%BD%A0%E5%B0%B1%E4%B8%8D%E4%BC%9A%E6%8B%89%E5%8F%A6%E4%B8%80%E5%8F%AA%E6%89%8B%E8%87%82“>

从本质上讲,这是%E5%A4%9A%E6%AD%A6%E8%A3%85%E5%BC%BA%E7%9B%97%E9%97%AE%E9%A2%98“>

VWO%E7%9A%84%E6%95%B0%E6%8D%AE%E7%A7%91%E5%AD%A6%E5%AE%B6写了一篇关于%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%BC%BA%E7%9B%97%E7%AE%97%E6%B3%95%E7%9A%84%E6%96%87%E7%AB%A0%EF%BC%8C%E7%94%A8%E5%8E%86%E5%8F%B2%E7%BC%96%E8%BE%91%E7%9A%84%E4%BE%8B%E5%AD%90%E6%9D%A5%E8%AF%B4%E6%98%8E%E5%AE%83%E4%BB%AC%E6%98%AF%E5%A6%82%E4%BD%95%E5%B7%A5%E4%BD%9C%E7%9A%84%EF%BC%9A”>

《测试内容标题的错误(和正确)方法》 Chris Stucchio:

“好消息! 发现了一名谋杀受害者。 今天没有慢的新闻日! 这个故事已经写好了,现在需要选择一个标题。 这位故事的聪明记者提出了两个潜在的头衔 – “在成人娱乐场所发现的谋杀受害者”和“在Topless Bar中找到的无头尸体”。 (后一个标题是我从“纽约每日新闻”中无耻地偷走的那个。)曾几何时,决定运行哪个标题是由新闻编辑决定的事情。 那些日子现在已经结束了 – 极客现在统治着地球。 标题选择现在主要是算法问题,而不是编辑问题。

一种常见的方法是在主页或新闻源上显示标题的潜在版本,并测量每个版本标题的点击率(CTR)。 在某些时候,当一个标题的测量点击率超过另一个标题的点击率时,您将切换到所有用户的最高点击率。 解决这个问题的算法叫做强盗算法。“

土匪是%E5%B9%B3%E8%A1%A1%E6%94%B6%E5%85%A5%E5%92%8C%E5%AD%A6%E4%B9%A0%E7%9A%84%E5%A5%BD%E6%96%B9%E6%B3%95%E3%80%82″>

《测试内容标题的错误(和正确)方法》
图片来自Matt” gershoff> / Conductrics“>

下面是%E9%A9%AC%E7%89%B9Gershoff%E7%9A%84CEO%EF%BC%8C”>

《测试内容标题的错误(和正确)方法》 Matt Gershoff:

“如果你考虑一下,假设你真的只是想进行优化,那么有三个主要原因可以选择强盗方法进行实验:

    1. 易腐性 – 如果您从实验中收集的任何信息的价值相当快地降低;
    2. 缩放 – 如果您需要运行特定类型实验的10或甚至100,那么让应用程序自我调整可能更有效;
    3. 复杂性/目标 – 通常您希望为每个客户学习并分配最佳体验,而不是仅为每个客户选择一种体验。 强盗方法可以首先学习并应用更明显的客户分配(规则),同时还在尝试寻找其他不太明显的定位规则。

标题测试有理由将其视为强盗问题,因为它至少有这些条件中的一个,通常都是三个:它是易腐烂的; 经常是规模; 在某些情况下,不同的标题可能会吸引不同的用户。

其次,确实没有真正的默认/控制,我们不得不担心做得更糟。 通过许多A / B测试方法,在测试逻辑中内置了一个隐含的“首先,不做任何伤害”。 在这种情况下,没有现有的标题,因此我们可以更自由地选择看起来效果最好的标题。“

%E2%80%9C%E5%8D%8E%E7%9B%9B%E9%A1%BF%E9%82%AE%E6%8A%A5%E2%80%9D%E4%BD%BF%E7%94%A8%E5%A4%9A%E8%87%82%E5%8C%AA%E5%BE%92%E6%9D%A5%E4%BC%98%E5%8C%96%E5%85%B6%E7%BD%91%E7%AB%99%E7%9A%84%E5%86%85%E5%AE%B9″ b>

“强盗首先探索测试的所有武器并监控每个手臂的用户反馈。 每个手臂的反馈(每个变体被提供和点击的次数)用于计算用户与该手臂的接合程度。 这种实时用户反馈用于增加对每个手臂性能的信心,直到强盗收敛到仅为最佳性能手臂服务。

这是一种完全自动化的测试体验,因为没有明确要求结束测试以阻止显示性能最差的变体。

与另一种称为A / B测试的流行测试范例相比,MAB测试本质上更灵活,因为可以添加新变体,即使在测试运行时也可以删除旧的和表现不佳的变体。 这在传统的A / B测试范例中是不可能的。 此外,还需要明确停止A / B测试,因为传统A / B测试中表现较差的变体与最佳表现变体的比例相同。“

虽然他们不会说他们使用它们,但我相当肯定Upworthy也使用强盗算法(他们的编辑称他们的工具是’神奇的独角兽盒’)。

以下是一些可以使用强盗算法的工具:

结论

内容标题测试很难,因为:

  • 执行真正受控的实验很困难。
  • 剥削的价值窗口很小。
  • 外部有效性因素猖獗。

因此,您阅读的许多声称拥有解决方案的博客文章都是田园诗般的。 他们提出的实际上并没有科学依据。

大多数您喜欢的网站测试内容标题的方式是通过复杂的强盗算法。 如果你可以执行强盗测试,那就去吧。 如果没有,不要认为发布两个不同的推文会给你一个强大或可扩展的答案。

%E7%89%B9%E5%BE%81%E5%9B%BE%E5%83%8F%E6%BA%90“>

相关文章

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注