3Dmark跑分作弊?No!只是规则的小把戏

文/Winter     09月09日 13:28 移动生活

这几天,手机圈里最热闹的新闻莫过于UL Benchmark公司和华为的争执了。事情原因起源于国外测试网站对华为手机的测试,华为手机被曝出只针对测试软件进行优化,随后华为和荣耀数款手机的测试成绩被下架。

3Dmark的下载页面

一些新闻媒体在转发新闻的同时,没有忘记给华为扣上了“作弊”帽子,但事实真的有这么严重吗?NO,其实以个人意见而言,华为行为虽然有耍小聪明的因素,但如果将其上升到作弊的高度,那就是完全没有道理。为什么这么说?我们不妨从3Dmark跑分说起。

目前的3Dmark版本有四个,个人意见认为iOS版本几乎没有必要,苹果设备会在乎这样的基准测试吗?呵呵

什么是3Dmark?

3Dmark是基准测试软件的一种,所谓的基准测试就是对测试对象进行定量和可对比的测试的过程,可测量、可重复、可对比是基准测试的三种重要特征。但是需要注意的是,这个基准测试并不是被强制通过的质量标准,只是用来考察性能的可参考标准。可参考、可参考、可参考,重要的词说三遍,这个词的意思是,能用到的时候,这个标准就有用,不能用到的时候,基准测试的结果就没什么卵用。

Android版本3Dmark,本次华为就栽在了专业版和普通版的区别上

现在说回3Dmark,早期的3Dmark是用于检测PC系统显卡性能的基准测试软件,在某些特定的场景下,还可以被用于PC系统压力测试。3Dmark存在的意在于,为行业人员提供了测试性能的最简单解决方式,一键测试可以在最短的时间内获得参考测试结果,降低了行业人员的工作强度,简化了测试过程,提升了测试效率。

在某些情况下,3Dmark是一种相对简单的压力测试方式,使用更简单,需要值守的环节更少

说到这里,我们不妨可以说说一般PC系统的测试过程。一般来说,测试PC系统时需要安装全新的、干净的操作系统,然后按照Chipset(主板)、VGA(显卡)的顺序安装驱动程序,再依次安装测试软件,补完测试环境,包括DirectX等程序。测试时隐藏系统栏,关闭电源管理、屏幕保护程序、声音、禁用网络。测试过程是运行测试软件,一般是至少运行三次,然后取平均值。运行次数越多,测试成绩的平均值误差越小,越能反映PC系统的真实性能。

3Dmark公开的性能排行榜,前六位都采用高通骁龙845处理器,第一名与第六名之间的性能差距只有3%,再结合每次跑分的10%误差,最后的结果也是呵呵

但是,3Dmark真能代表PC系统的全部性能吗?我们可以斩钉截铁的告诉你:NO!3Dmark这破玩意儿更多测试的是VGA的性能,大部分的测试选项和CPU一毛钱关系都没有,线程、核心什么的统统都不考虑,只有少部分选项会受到CPU主频的影响,而且在最后成绩中,这影响还基本看不出来。关于测试成绩还可以说说,一般情况下,3Dmark的最后测试成绩每次都不会一样,每次的误差在10%以内均算正常……所以你懂的,这个成绩真的只能用来参考。

关于Benchmark跑分的黑历史

自从有了性能测试,有了成绩,有了排行,厂商们和Benchmark软件开发者的“撕逼”、博弈一直在进行。归根结底在于市场、在于用户、在于利益。前面我们说了基准测试软件的大致原理和测试过程,因此可以看出测试本身是十分枯燥且漫长的,如果没有简便的Benchmark软件,测试者只能自己手写批处理文件来进行测试,这无疑是不现实的,而且对用户来说,一个直观的综合成绩对最终选择无疑是有巨大影响的。面对金钱,硬件厂商如何不动心。

针对高端产品的Fire Strike测试,目前只针对Windows操作系统

也正是因为如此,Benchmark跑分从很早就充斥着奇特的味道。个人记忆中,最早一次关于Benchmark跑分的黑历史大约是2004年或更早,当时的权威测试网站《Tom’s Hardware》在测试一款微星主板时发现的“有趣”现象,根据当时《Tom’s Hardware》的文章,他们在测试过程中发现微星主板在运行某些特定程序(游戏或测试软件)的时候,会将处理器、内存等核心硬件进行小幅超频处理,这样在所有拥有测试成绩的跑分中,微星主板都会领先友商的产品。在最后的结论中,《Tom’s Hardware》将微星科技的行为称之为“绝妙的骗局”。看看这个,对比下华为的行为,两者之间的差别大吗?

以个人观点来看,微星当时的行为恰恰说明了其拥有强大的技术实力,能够实时侦测到运行的程序,同时还能针对运行环境加以优化(超频),保证用户获得最好的应用体验。当然,微星的做法也不是一点问题没有,错误的地方在于没有明确告诉消费者,主板在什么环境下会干出什么事情,而且超频行为也确实会对计算机硬件的使用寿命有影响。但是,大部分消费者在意吗?在早期DIY时代里,会自己手动超频的用户有多少?在全体用户里的占比有多少?所以微星的行为造福了大部分用户,市场的反应也比想象中更宽容,几乎没怎么冒泡就过了。同时微星的行为也为后来Intel推出支持睿频的处理器提供了可行性的思路,当然,两者之间的间隔是有点远。

针对中端产品的Sky Diver测试,目前只针对Windows操作系统

接下来的事情就比较有意思了。早年的NVIDIA和ATI(现在应该叫AMD)在市场上互相掐得厉害,互相指责对方在Benchmark软件测试环节中造价,甚至还有在进行测试时指定测试者重点跑哪些Benchmark软件的行为,客气点说这叫突出优势,不客气的说,这叫涉嫌操纵结果。在这一时期里,两家VGA厂商经常指责竞争对手针对Benchmark软件进行驱动优化,即在驱动程序中写入专门针对Benchmark软件的侦测,即在检测到运行类似“Benchmark.exe”的时候,启动超频模式或Turbo模式,以获得更好的成绩。检测方式很简单,将“Benchmark.exe”之类的文件换个扩展名就可以了,这样进行两次测试,然后对比结果就能看到厂商的花样。这和华为本次的行为有区别吗?那个时候怎么不见UL Benchmark叫嚣得那么厉害?

针对典型场景的Cloud Gate测试,目前只针对Windows操作系统

到了今天,3Dmark实际上已经是一个商业味道很浓厚的基准测试软件了,在测试画面上,我们可以看到一些厂商的Logo,就这样你让我相信测试结果是绝对客观、中立、第三方的?开玩笑的吧!这就是我们始终强调Benchmark软件测试结果只能作为参考的重要原因。对测试成绩真正有用的是,一般测试环境中有对各种不同游戏的帧率测试,这个数据才是有用的。

华为的小聪明

3Dmark在当前的智能手机上,着重检测是的GPU的性能,得益于早年从AMD得到的技术成果,高通产品的性能在当前市场上出于绝对的优势。这对华为来说是相当糟糕的困局,对比下当前麒麟处理器使用的GPU性能,只有加强异构运算的能力才是出路,但不幸的是,3Dmark对这一架构的能力测试并不敏感(其实敏感也可能是高通处理器占优)。

Ice Storm才是针对Android智能手机的基准测试项目

或许是出于抢占市场的因素,华为做出了针对测试软件开启性能模式的决定。就个人观点,华为这个行为在没有进行提前宣告的情况下,是相当愚蠢的,是个在规则内耍小聪明的行为,其最大的错误在于只针对测试软件封包进行优化,而没有进行全面的适配优化(例如主流手机游戏)。因此所谓的AI调动系统资源的说法还是有相当的瑕疵,只要事先做了哪怕一款游戏的适配,UL Benchmark的叫嚣就没有任何道理。这也是最后华为低调与其达成协议的重要原因。

API测试也是针对智能手机测试的选项之一

再一个就是测试环境的问题,手机的集成度更高,每个厂商自己的系统都有自己的优化,没有统一、干净的安装包一说,甚至连底层的驱动都不尽相同。在这种背景下,统一的基准测试真的就只是参考,更何况,还有什么自启动、关联启动的全家桶,3Dmark基准测试的结果真的权威吗?

这世界,小聪明可以有,使用需慎重。华为或许有错,但UL Benchmark的屁股也没想象中那么干净。早年也没见他们下架任何一家厂商的测试成绩,现在来下架,只能说呵呵,或许是因为国外公司惹不起,先来个中国公司开刀吧。

如果你还有话想说
加我们的微信号吧

zhinengyujia

欢迎来撩!

你还可以在这些地方看到我们

成功