猜想你一定有这样的经历:在使用电脑的绝大多数时间中,CPU的负载是远低于20%的,甚至大部分的时间CPU占用率不到5%,这使得我们对电脑的速度很满意,甚至有种“够用”了的错觉。可是当游戏开始运行,当开始播放高清电影,当开始给移动媒体设备压片的时候,我们总是处于在一种急不可耐的状态中――CPU在全速运转,机箱内温度开始升高,风扇开始提速发出呼呼的声音……我们的电脑虽然越来越快了,但和我们对数字化生活的渴望相比,它还是增长得太慢太慢。
远不满足南太平洋的CPU性能
很多朋友都明白为了让GPU的工作更有效率,我们需要搭配更快的CPU,而至于其中的真正关节在何处,却很少能在网上找到资料。CPU是GPU高效工作的基础,没有CPU的支撑,GPU并不知道因该如何去渲染画面的哪些内容。CPU为了指挥GPU工作,需要向GPU提交需要渲染的数据和操作信息,CPU每次需要GPU渲染一个3D物件,都需要进行一次“绘制***元”(DrawPrimitlve)的提交工作。绘制***元的提交工作非常的耗费CPU时钟周期。
至于这个消耗有多大呢,数值是惊人的――一般来说,每秒提交2万次以上的渲染,就会消耗掉整整1GHz的CPU工作周期。其实分散到每个帧,按60fps计算也就是300多次绘制。换句话说,如果一幅画面是分400次才能画完,则1GHz的CPU工作时间将会完全用于辅助GPU工作。而GPU绘制一幅画面的次数会受到很多因素的影响,通常只有相同材质相同类型的物体才能放在一起绘制,譬如球员和足球和草皮,都不可能放在一起绘制,更何况如今的游戏都是大面积的场景和各种复杂的物件混合在一起,情况的严峻程度可以想见。
因此,我们除了期待游戏工程师们的优秀表现之外,也需要更快的CPU支持才能获得更好的游戏体验。
在游戏中,除了GPU需要我们更多的CPU计算能力之外,游戏本身也对CPU的计算能力提出了新的考验。不同于各种视觉特效,新一代的游戏中还有很多细节的内容是不适合交给GPU来计算的,譬如我们作为玩家非常看重的物理模拟,角色动作生成,游戏角色AI等等。
尽管现在号称有***的PPU,或者说GPU加速的游戏物理技术。但是我们发现CPU每次和外部设备进行协作的时候,本身就会有大量的“沟通成本”,更何况如今的GPU本身面对***形渲染的挑战已不堪重负。在简单的《虚幻竞技场3》的实验中会发现,使用GPU(9800GTX+)在渲染画面的同时兼职对物理场景进行加速,对整体游戏的速度提升并没有帮助。想要真正运用GPU加速,除非玩家考虑安装单独的GPU来进行物理运算,但显然这不符合大部分普通玩家的实际情况。至于角色动作合成等新兴的领域,更不可能短时间的移植到其他的处理器上进行计算,譬如我们看最新的即时策略游戏“End War”,这款游戏中使用的语音识别技术,完全需要依靠CPU的计算来完成。
除了我们最常进行的游戏之外,看片也是目前家用电脑的主要用途。在高清电影面前,古老的计算机已经不堪重负,1080P的视频在大动态镜头时,常常会有掉帧的情况。为了解决这样的问题,GPU厂商提出了利用显卡来硬件加速解码的法子。但是目前的GPU解码有很多的问题,譬如对于字幕和复杂滤镜的支持就很不好。为了获得最好的画质和解码兼容性,自然还是用CPU最好。当然,这也需要我们有一颗更劲的CPU才行。
多核心时代
芯片都是在单晶硅大圆片上制成的,难免硅晶体会带有少量缺陷。进入90纳米以下工艺之后,晶体管的尺寸已经和某些缺陷或杂质的尺寸到了同一个尺寸量级,甚至晶体管尺寸不及一个缺陷的面积大。非致命的缺陷通常会造成电路性能下降,而许多缺陷在降低晶体管性能的同时还会直接增加晶体管的功耗,对频率提升造成障碍,想要弥补缺陷带来的损失,就需要给电路更高的电压和更大的电流。早期芯片的主要功耗是工作时的动态功耗,但到了90纳米以下,情况发生了很大变化,许多原来基本可以忽略不计的功耗因素现在都占据了较大的比重,例如电路互连损耗、泄漏损耗。其中,泄漏损耗的影响急剧增加。
为了满足对性能的持续需求,我们迎来了多核心处理器。多核心处理器的诞生主要是为了继续保持性能的提升而不必在高频率和高热量上继续钻牛角尖。
多核心处理器的普及所遇到的障碍远比很多人预计的小得多。软件方面凭借各大操作系统早年对多CPU系统支持留下的经验使得多核心处理器应用到桌面几乎没有遇到什么障碍,硬件上由于是多核心而不是多芯片,除了CPU本身的更新之外,对周边硬件的影响都不是很大。
多核心处理器的工作方式并非是早先单核心处理器性能的倍数。实际上和大家通常所想的不同,多核心处理器中单一核心的处理能力,比起***的单核心处理器性能要低,同时由于有更多的元器件集成在其中,且制程进一步提高,多核心处理器的频率上升速度也比单核心处理器更慢。多核心处理器真正强大的地方是在于一个“多”字。所谓三个臭皮匠抵个诸葛亮,当CPU内的核心增加的时候,就有了更多的计算单元,同时还有互相的扶持。
就我们最常用的桌面应用而言。当我们使用多核心处理器时就不会遇到被某个崩溃的软件锁死的问题,这简直太美妙了。在单核心的运用中,当某个应用程序出问题时,可能会阻塞CPU处理任务的通道,这样即使是操作系统想要结束这个出错的应用程序都没有办法,基本上就和交警的车子在高峰期一样会给堵在中关村差不多……而有了多核心之后,当一个核心发生阻塞时,另外一个核心就可以来帮助这个阻塞的核心解围。将错误的现场处理干净。这样我们就会更少的遇到系统失去响应的情况。而且即便是在CPU满负荷的时候,这种互相扶持依然会带来巨大的用户体验改观。
双核的好处多多,所以普及非常迅速。但是正如我们前文所说,在多核心处理器上,除非不停的增加核心,否则性能的提升可能会比单核心处理器提升起来更困难。在面对“Unreal3”引擎的《虚幻竞技场》,“CryEngine2”引擎的“Crysis”,“World inConflict”(冲突世界)等超高性能要求的游戏时,目前的多核心处理器性能依然需要很大的提升才行。
那么是否应该立即跑步进入4核心时代呢?答案又是否定的。由于现在的制造工艺所限,四核心的处理器对普通玩家而言,依然投入过高。在软件方面,大家常用的多媒体娱乐或者游戏应用,又暂时不能完美的发挥四核心的性能,毕竟把一件事情交给两个人的小组做还是要比较给四人小组做来的好管理。四核心的优化好需要较长的时间才可能成熟。因此我们只能寄希望与将双核处理器的 性能进行提升。
45nm技术新高度
Intel面对玩家们的需求和呼声,推出了45nm的新一代酷睿2处理器。在新一代酷睿2处理器中,提升双核处理的每个单核心的处理能力和降低总功耗成为了工作的重心。45nm技术和以往的65nm“Conroe”相比,主要集中于半导体材料结构的进化,制程的进化以及多项微体系结构改进。
我们都知道芯片是基于半导体晶体管技术的,通过“通”和“断”两种状态来描述0和1两种二进制状态。晶体管拥有源极,漏极和栅极,通过给栅极加电压可以实现源极和漏极的通断。举个例子就是栅极是源极和漏极之间的水龙头。按照摩尔定律的发展,每18个月之后,我们就需要把更多的晶体管“微雕”在一块硅片内,而如果芯片面积不变,则要求我们的晶体管只能拥有以往的一半大小。随着工艺的进步,如今每个晶体管的组成原件都只有几个分子到几个原子的尺寸。在这种极端的情况下,半导体的物理特性达到极限,继续缩小尺寸将导致芯片单位面积内的能量密度,漏电情况呈指数形式上升,甚至无法令芯片内的晶体管正常工作。继续用水龙头的解释就是阀门挡不住水流不说,本身阀门旋转的把手那里还有水流源源不断的涌出来……这样这个阀门完全就是废物了。
在Intel的45nm工艺中,启用了03年在日本的“High-K”(高介电常数)介电质加金属栅极技术,其中的“High-K”介电质运用了金属铪(Hf),这种套技术可以使源极到漏极间的漏电减少5倍以上,介电质漏电降低10倍,驱动电流的效率提升20%。从单一的数字来看似乎并不是一个激动人心的数值,可是要知道,如今一块E7200的处理器中,已经在一个1平方厘米的面积内集成了4.1亿个晶体管,累计提高的能效和减少的漏电量无异于“蚂蚁雄兵”,非常可观!更何况这项技术可以使得将来把单个晶体管做到更小。再用水龙头的比喻就是新的技术让小阀门重新变得更可靠的同时,还给阀门的旋转把手加了油,旋转起阀门来更加省力了……就像陶瓷阀芯替代橡胶阀芯一样。甚至摩尔定律的提出者――戈登・摩尔博士都提出了“高-k栅介质加金属栅极晶体管是自上世纪60年代晚期推出多晶硅栅极金属氧化物半导体(MOS)晶体管以来,晶体管技术领域里最重大的突破”这样的极高评价。尽管这项技术的成本比其他的技术相比成本要高出一些,不过Intel依然决定不惜工本。
在微体系结构的改进上,45nm酷睿2首先改进了L2 Cache的部分,借助新的工艺,可以往芯片中加入更复杂的结构。L2Cache在容量上增加了50%之外为了提高其使用效率,在CPU和Cache的连接上采用了24路的设计。缓存增加的同时,新的款CPU同步引入了Fast Radix-16除法器与Super Shuffle引擎,前者能够显著提升除法、开根等运算,后者能显著提升128bit数据块的重排列的性能,平均运算效能提升30%,开方运算效能提升50%,部分SSE,SSE2,SSE3的执行速度最高提升可达75%。同时优化了虚拟化技术的支持,可以提升平均达50%的性能――虚拟化技术是一种以速度换稳定的技术平台,会被逐渐大量采用。
此外,45nm的新一代酷睿2还引入了全新的SSE4.1指令集。英特尔的SSE4(流式单指令多数据扩张)指令集包含了54条新指令,其中的47条指令在Wolfdale/Penryn上实现,被称作SSE 4.1,而剩下的7条SSE4指令将在代号Nehalem架构的45纳米处理器(下一代“酷睿2”处理器)上开始实现,SSE 4.1的引入主要是为了提升x86处理器在视频编辑、***形处理等效能。Intel表示,和Conroe架构Core 2 2.93GHz1066MHz FSB采用SSE2相比,45nm的Core 2 3.33GHz 1066MHz FSB采用SSE4+SSSE3可以在微软SSE4+SSSE3优化版视频编码器中提供多达40%的程序级性能提升。在3D方面的支持上,DPPS(单精度,单指令4D向量)和DPPD(双精度,单指令2D向量)操作的引入是一个重大的性能突破,在3D运算中,一条4D向量(xyz三个空间坐标和一个w的特殊位)的点积操作指令相当于包含了4个乘法和3个加法运算操作。和使用SSE2指令编写的程序相比,SSE4.1跑一次4D单精度dot product只需要一条DPPS就能达成,而SSE2需要5条指令才能达成。相当于5倍的性能!物理引擎的运用是目前CPU在3D处理的最典型应用之一,设想一下5倍的物理引擎计算效率,将会给我们的游戏体验带来多么大的变化。
总结
可以看出,45nm的新一代酷睿2处理器,完全是Intel处理器的又一个新高度,又一个新起点。或许高科技总是包含着高价格和稀有,但是Intel的45rim处理器系列则并非如此。面对桌面市场的E7200处理器包含了我们上文所谈论的一切新技术元素,却仍然拥有平易近人的价格。我们又有什么理由不选择呢?
转载请注明出处学文网 » 45nm新起点,新高度