产业龙头常青的秘密武器:实验的力量
作者:王筱婷
2020-05-03
摘要:亚马逊和微软等产业龙头,为什么能持续创新?他们仰赖的一个秘密武器就是:实验。做实验时,应该注意哪些原则?问自己哪七个问题?

亚马逊(Amson)、微软(Microsoft)、全球最大订房网站Booking.com等,这些业界龙头,能够维持不败地位有一个重要原因:实验。每年,这些企业进行数千、数万次的实验。每当员工有新构想,公司会鼓励他们进行实验,确认是否可行,于是整家公司成了一个实验与创新的引擎。

今天,当环境不断变动,当顾客的喜好快速改变,究竟该如何决定推出哪一项新产品?如何判断什么创新功能会获得顾客的青睐?要回答这样的问题,再睿智、有经验的领导人都可能会猜错,最可靠的做法就是:实验。

哈佛商学院教授汤克(Stefan H.Thomke)指出,要提高企业创新的成功率,你需要实验的力量。他强调,很多企业在推动计划前虽然会做些小测试,但往往流程不够缜密,称不上是正规的实验;要不是整体的实验数量不足,就是测试的创新点子太少。

汤克是创新管理的专家。在哈佛任教前,他曾任麦肯锡顾问公司(McKinsey & Company)顾问,协助全球许多企业,加强科技发展、顾客体验,发展创新策略等。

他在新作“实验,不做不行!”(Experimentation Works)中,疾呼实验对企业创新的重要性。他指出,过去若要大规模地实验,必定旷废时日且成本高昂,但科技给予了我们更加便利的新工具,当你将缜密的实验与科技工具结合,便能迅速、低成本,且大规模地测验每个创新构思。

 

缜密的商业实验

今天,很少人能有足够的数据,可做出有利于创新的决策,更别说某些领导人可能过度依赖经验与直觉。但真正新颖的东西,往往是颠覆常态,难以依过往知识推论出来的。事实上,就连乔布斯(Steve Jobs),在2003年之际,也曾否定过如今颇普遍的音乐订阅模式。

因此若要确认某个构想会不会成功,就必须通过实验,而且是反复且缜密的实验。过程中,无论原先的假想被验证了或推翻了,都是学习的机会;原本模糊的构思也会逐渐有了完整的形态,最终导向一个有实证为它背书的结论。

汤克指出,在商业环境当中的实验,本质上还是不离科学方法,也就是先厘清要研究的问题,然后基于这个问题设立可测试的假设(hypothesis)。实验的目的是在探究不同因素,也就是变项之间的关系,主要是独立变项与依变项。独立变项是由实验者直接操控,引起后者产生变化的因素,因此独立变项被视为“因”(cause),依变项则是“果”(effect)。

举例来说,若你想知道用什么液体浇花,会对该植物的生长产生什么影响,那么你所控制的独立变项就是所使用的液体,比如糖水跟盐水相比。因所使用的液体不同,而产生的结果就是依变项。

为了要确保两者间确实有因果关系,除了独立变项以外,实验对象的所有条件必须尽量一致,比如说,两盆植物必须是同一种类,处于同一温度,接受同样的光照等等。此外,实验时通常会设立一个没有经过任何实验处理的对照组,在这个例子中,对照组就是仅浇一般清水的一盆植物。如此一来,在跟对照组比对之下,糖水或盐水对植物的影响会更容易分辨。

问题是,在商业的情况中,周遭的各种因素复杂且多变,我们往往难以保持如此真空无菌的环境。因此,除了谨慎用心以外,企业必须通过一次又一次的测试、反馈、修正,然后再测试的循环,逐渐推进最终的答案。善用这种叠代式(iteratwe)实验方法的一个范例,便是1995年,美洲杯帆船赛冠军,新西兰的黑巫队(Black Magic)。

当时他们实验的目的,是为了打造一艘必胜的赛艇。与其耗费大笔金钱与时间建造实体船只,黑巫队选择制作小型船模,在实验室的风洞跟船模试验池里进行测试,并且借用计算机模拟的力量。他们低成本,且迅速地做出一个个小型的控制实验,在反复的测试、学习与修正之后,最终诞生了最佳赛艇,在比赛中,带领他们驶向冠军。

黑巫队所采用的是一种名为实验转盘(experimentation wheel)的标准流程。这种流程强调叠代式的实验,主要由三个步骤构成:

1.产生可测试的假设。第一步是先温习过去的资料、实验等,藉此激发新的点子,并设立假设。此时你的假设务必是要能被实验测试的。比如黑巫队希望船既轻巧,又能强韧地耐得起严峻海况,因此设想了许多不同的设计,然后一一测试。

2.进行有纪律的实验。实验流程需严谨,无论测试假设的方式是经由实体或虚拟的模型。以黑巫队来说,它就是利用计算机模拟搭配船模进行测试。要留意的是,在实验室里测试虽然便于控制每个变项,但毕竟无法全然复制现实状况,可能有缺漏之处,这点公司必须纳入考量。

3.学习有意义的洞察。研究者经实验获得成果并分析后,会对他们所研究的主题有更深的认识,也能基于从中学习到的知识,决定下一轮的实验该如何进行。若已获得充足的答案,那么实验即结束;但若尚有不足之处,研究者便应基于所得的新知,修正实验设计,并再度测试。

 

好实验七问

在进行实验时,必须留意的是,实验多跟快,并不等同实验本身是好的。有瑕疵的实验结果,只会导致有瑕疵的决策。

因此,汤克指出,企业需要遵循一套“好实验七问”原则,才能确保实验本身的品质,以及它确实能帮助组织做出更好的决策。以下是企业应自问的7个问题:

Q1这个实验的假设是否是可测试的?

你所设定的实验假设必须是强而有力的。它必须是基于过去的研究、观察、资料探勘等实据来源所产生,而不是凭空的揣测,它也必须能协助研究者,辨明变项之间的因果关系。这个假设也必须能被明确衡量,若假设错误,也能够轻易被推翻。此外,该实验要能复制,而且所探讨之事也必须确实对公司有重大影响。

以美国的柯尔百货公司(Kohls)为例,2013年,公司为了降低运营成本,而想延迟每日开店时间,但又担心可能重创销售额。于是柯尔进行了实验,其假设便是:“延后一小时开店不会影响每日销售额。”这就是个符合上述要求的好假设。相对的:“我们的品牌可以踏入更高档的市场。”则是个模糊的假设。

Q2利害关系人是否承诺服务于实验的结果?

若结果出炉,但利害关系人因种种因素而拒绝接受,那么这个实验从一开始就没有进行的必要。

因此,你应该事先确保相关人士把实验当一回事,而不是高层主管说了算。在组织内部设立一个管制的体系,就是一个办法,比如说在Publix连锁超市,几乎每个大型的零售计划提案,都得先经过好几道关卡,并经实验证实可行,才能获得预算。

Q3这个实验是否可行?

有时,一个商业情境所牵扯到的要素过于庞杂,因此即使实验了,也可能无法确定,真正导致某个结果的原因是什么,那么这个实验就不可行。

比如某连锁便利商店发现,旗下快速店(Fast Mart)的店面销售额,比名为快克店(QwlkMart)的高许多,因此想用几个店家来测试,将快克店改名成快速店,是否就能提高销售额。

这实验看来容易,换个招牌而已。但在换招牌的同时,许多可能影响店家生意的变项也同时在发生,比如气候变化、竞争者推出的促销、附近的马路有工程等,这些都成为噪音,影响实验的结论。扩大样本数或许能降低上述噪音,但如此一来,牵涉到的店家就可能过多,实验成本也可能不堪负荷。因此,这个实验并不可行。

Q4要如何确保实验结果是可靠的?

研究者有责任确保实验的可靠性,因此诸如系统性的,或受试者个人的偏差,或是其他可能影响实验结果信度的因素,都应该尽力排除。为此,汤克建议了几个方法,比如采用盲测。

此外,随机的实地试验,也是一个方法。它的做法是挑选一群有相同特质的群体,然后将其分成实验组与对照组,以前者来测试某个新的改变,后者则是维持原样,通过两者的比对来验证,该改变是否会造成任何影响。

Q5我们了解当中的因果关系吗?

相关性不等同因果关系,这是做实验时必须谨记在心的一件事。以微软为例,该公司团队曾观察到,他们推出的某个office新功能,跟较低的顾客流失率有正相关,因此得到“该新功能能减少顾客流失率”的结论。

但事实其实是,会尝试新功能的用户,往往本来就是该产品的受用者,也就是本来就不太会跳槽的群体。因此低流失率并不见得是新功能的功劳。

Q6我们是否发挥了该实验的最大价

做实验只是第一步,接下来还得深入分析你藉由实验所获得的数据,以求从中获得最大价值。

比如说,某商家经实验后发现,某促销活动带来了5%的销售额提升。但光是了解到这种程度并不够,毕竟这个销售额的变动,也有部分可能是其他因素导致的,比如说员工训练的改善。

因此,此时商家可以进行另一个实验来判断,销售额提升,有多大比例是促销或员工训练导致的,还是其他因素影响。获得答案后,再来决定哪个部份值得加强力度。

Q7我们的实验结果,是否真的影响我们的决策?

一个优质的实验可以帮助主管做出更好的决策,而且它越是严谨,可信度越高,就越是领导人推动变革时,抵御内部抵抗或是高层施压的利器。

在这种情况下,即使最后因故决定不采用实验结果所建议的做法,那也必然是众人共同探讨后的结果。比如网飞(Nelflk)在2016年,针对影集“同妻倶乐部”(Grace and Frankie)的实验发现,当汤姆琳(Lily Tomlin)与珍芳达(Jane Fonda)两位女主角在宣传图片上同时出现,所吸引的点击率,反而比只有汤姆琳的图片低。

但终究他们选择了吸引力较低的双女角宣传图片,部分是因为不愿冒犯老牌女星珍芳达,另外则是合约考量,而团队都明白为何会做出这样的取舍。

 

数位时代的实验

除了实体情境的实验之外,今天,就算并非科技产业的公司,在进行实验时,往往也会借用科技的力量。因为计算机模拟等工具,大幅降低了实验成本,也使得快速且大规模的实验变得可能。

特别是对经营电子商务的公司来说,设计单纯的A/B测试,是优化界面、测试改版等的常见方法。简单的来说,就是提出AB两种版本,两者之间只有某一个变项,藉此测试该变项有何影响。(若比较的版本在三个以上,就是A/B/n测试。〕

A/B测试,或其他较简易的实验工具,大多时候推动的都是较小规模的变动。某些改变虽小,却能带来意外的大价值,或者将这些小改进积沙成塔,也可能带来极为惊人的变动。

2012年,某个员工的简单设想,让微软的Bing,稍稍改动页面上广告连结的呈现方式,将广告副标题里的文字,移动一部分到大标题里,让大标题变长。

不过是这么微小的变动,就让用户对广告的兴趣有显著提升,使得Bing的营收往上飙涨了12%。但这种例子还是较少见,以微软为例,该公司整体的实验,只有1/3获得正面成果。对微软来说,只有进行更多实验,才能提高正面成果的数量。因此,微软内部就有个80多人的分析与实验团队,以支援如此大量的实验。

若你公司的团队想要打造内部的在线实验架构,有三个模式可选择,那就是集中模式、分散模式与卓越中心模式。每个模式各有优劣,公司应视组织状况选择最适合的模式。

集中模式是由一个工程师、数据分析师等专家所组成的团队,统筹与执行组织内部的所有实验。好处是他们可以专心做自己的事,进行较长期的项目;缺点是,因为独立在事业单位外,可能不太懂委托单位要测试的重点是什么。

分散模式则是将这些专家散布于每个事业单位之中。跟上述的情况相反,这些人会很了解事业单位的状况与实验的需求,但也因各个实验团队散落各处,导致知识分享会比较困难。

卓越中心模式则是综合上述两者,也就是既有某些实验专家组成中央的功能团队,也有成员安插在各个事业单位之中,形成一个全面性的实验平台。比较显著的一个缺点是,有时会有权责分野不明的地方,比如说,若有事业单位需要聘用更多实验专家,那么这项预算应该算在卓越中心,还是该单位头上呢?

实验不是大企业的专利,运用以上原则及方法,就算只是家小公司,也能以实验启动创新能量,创造竞争优势。

 

 


热门文章