您好,  [请登录] [QQ登录]  [支付宝登录[免费注册]

商品分类

分享到: 百度搜藏 搜狐微博 新浪微博 腾讯微博 QQ收藏 人人网 Facebook Twitter

多核处理惩罚器的九大关键技能

发布日期:2011-05-21

  与单核处理惩罚器相比,多核处理惩罚器在体系布局、软件、功耗和寂静性计划等方面面对着巨大的挑衅,但也蕴含着巨大的潜能。
 
  CMP和SMT一样,致力于掘客谋略的粗粒度并行性。CMP可以看做是随着大范围集成电路技能的生长,在芯片容量充足大时,就可以将大范围并行处理惩罚机布局中的SMP(对称多处理惩罚机)或DSM(散布共享处理惩罚机)节点集成到同一芯片内,各个处理惩罚器并行实行差别的线程或进程。在基于SMP布局的单芯片多处理惩罚机中,处理惩罚器之间通过片外Cache大概是片外的共享存储器来举行通讯。而基于DSM布局的单芯片多处理惩罚器中,处理惩罚器间通过连接散布式存储器的片内高速交错开关网络举行通讯。
 
  由于SMP和DSM已经黑白常成熟的技能了,CMP布局计划比较容易,只是后端计划和芯片制造工艺的请求较高罢了。正由于如许,CMP成为了开始被应用于商用CPU的“将来”高性能处理惩罚器布局。
 
  固然多核能利用集成度进步带来的诸多长处,让芯片的性能成倍地增长,但很明显的是原来体系级的一些题目便引入到了处理惩罚器内部。
 
  1 核布局研究: 同构还是异构
 
  CMP的构因素成同会商异构两类,同构是指内部核的布局是雷同的,而异构是指内部的核布局是差别的。为此,面对差别的应用研究核布局的实现对将来微处理惩罚器的性能至关紧张。核本身的布局,干系到整个芯片的面积、功耗和性能。怎样承继和生长传统处理惩罚器的结果,直接影响多核的性能和实现周期。同时,根据Amdahl定理,步伐的加快比决定于串行部分的性能,以是,从理论上来看好像异构微处理惩罚器的布局具有更好的性能。
 
  核所用的指令体系对体系的实现也是很紧张的,采取多核之间采取雷同的指令体系还是差别的指令体系,可否运行操纵体系等,也将是研究的内容之一。
 
  2 步伐实行模型
 
  多核处理惩罚器计划的重要题目是选择步伐实行模型。步伐实行模型的实用性决定多核处理惩罚器可否以最低的价格提供最高的性能。步伐实行模型是编译器计划职员与体系实现职员之间的接口。编译器计划职员决定怎样将一种高级语言步伐按一种步伐实行模型转换成一种目标呆板语言步伐; 体系实现职员则决定该步伐实行模型在详细目标呆板上的有效实现。当目标呆板是多核体系布局时,孕育产生的题目是: 多核体系布局怎样支庄紧张的步伐实行模型?是否有其他的步伐实行模型更适于多核的体系布局?这些步伐实行模型能多大程度上餍足应用的必要并为用户所担当?
 
  3 Cache计划: 多级Cache计划与同等性题目
 
  处理惩罚器和主存间的速率差距对CMP来说是个突出的抵牾,因此必须利用多级Cache来缓解。如今有共享一级Cache的CMP、共享二级Cache的CMP以及共享主存的CMP。通常,CMP采取共享二级Cache的CMP布局,即每个处理惩罚器内核拥有私有的一级Cache,且全部处理惩罚器内核共享二级Cache。
 
  Cache自身的体系布局计划也直接干系到体系团体性能。但是在CMP布局中,共享Cache或独占Cache孰优孰劣、需不必要在一块芯片上创建多级Cache,以及创建几级Cache等等,由于对整个芯片的尺寸、功耗、布局、性能以及运行服从等都有很大的影响,因而这些都是必要认真研究和探究的题目。
 
  另一方面,多级Cache又引发同等性题目。采取何种Cache同等性模型和机制都将对CMP团体性能孕育产生紧张影响。在传统多处理惩罚器体系布局中遍及采取的Cache同等性模型有: 次序同等性模型、弱同等性模型、开释同等性模型等。与之相干的Cache同等性机制重要有总线的侦听协讲和基于目次的目次协议。如今的CMP体系大多采取基于总线的侦听协议。
 
  4 核间通讯技能
 
  CMP处理惩罚器的各CPU内核实行的步伐之间偶然必要举行数据共享与同步,因此其硬件布局必须支持核间通讯。高效的通讯机制是CMP处理惩罚器高性能的紧张保障,如今比较主流的片上高效通讯机制有两种,一种是基于总线共享的Cache布局,一种是基于片上的互连布局。
 
  总线共享Cache布局是指每个CPU内核拥有共享的二级或三级Cache,用于生存比较常用的数据,并通过连接内核的总线举行通讯。这种体系的好处是布局大略,通讯速率高,缺点是基于总线的布局可扩展性较差。
 
  基于片上互连的布局是指每个CPU内核具有独立的处理惩罚单位和Cache,各个CPU内核通过交错开关或片上彀络等方法连接在一起。各个CPU内核间通过消息通讯。这种布局的好处是可扩展性好,数据带宽有包管; 缺点是硬件布局巨大,且软件窜改较大。
 
  大概这两者的竞争结果不是相互代替而是相互相助,比方在全局范畴采取片上彀络而局部采取总线方法,来到达性能与巨大性的均衡。
 
  5 总线计划
 
  传统微处理惩罚器中,Cache不掷中或访存变乱都市对CPU的实行服从孕育产生负面影响,而总线接口单位(BIU)的事变服从会决定此影响的程度。当多个CPU内核同时请求访问内存或多个CPU内核内私有Cache同时出现Cache不掷中变乱时,BIU对这多个访问恳求的仲裁机制以及对外存储访问的转换机制的服从决定了CMP体系的团体性能。因此探求高效的多端口总线接口单位(BIU)布局,将多内核对主存的单字访问转为更为高效的猝发(burst)访问; 同时探求对CMP处理惩罚器团体服从最佳的一次Burst访问字的数量模型以及高效多端口BIU访问的仲裁机制将是CMP处理惩罚器研究的紧张内容。
 
  6 操纵体系计划: 任务调理、停止处理惩罚、同步互斥
 
  对付多核CPU,优化操纵体系任务调理算法是包管服从的关键。一样平常任务调理算法有全局行列步队调理和局步队列调理。前者是指操纵体系维护一个全局的任务等待行列步队,当体系中有一个CPU内核空闲时,操纵体系就从全局任务等待行列步队中选取就绪任务开始在此内核上实行。
 
  这种要领的好处是CPU内核利用率较高。后者是指操纵体系为每个CPU内核维护一个局部的任务等待行列步队,当体系中有一个CPU内核空闲时,便从该内核的任务等待行列步队中选获取当的任务实行,这种要领的好处是任务根本上无需在多个CPU内核间切换,有利于进步CPU内核局部Cache掷中率。如今多数多核CPU操纵体系采取的是基于全局行列步队的任务调理算法。
 
  多核的停止处理惩罚和单核有很大差别。多核的到处理惩罚器之间必要通过停止方法举行通讯,以是多个处理惩罚器之间的本地停止控制器和认真仲裁各核之间停止分派的全局停止控制器也必要封装在芯片内部。
 
  别的,多核CPU是一个多任务体系。由于差别任务会竞争共享资源,因此必要体系提供同步与互斥机制。而传统的用于单核的办理机制并不克不及餍足多核,必要利用硬件提供的“读-修改-写”的原子操纵或其他同步互斥机制来包管。
 
  7 低功耗计划
 
  半导体工艺的敏捷生长使微处理惩罚器的集成度越来越高,同时处理惩罚器外貌温度也变得越来越高并呈指数级增长,每三年处理惩罚器的功耗密度就能翻一番。如今,低功耗和热优化计划已经成为微处理惩罚器研究中的内核题目。CMP的多内核布局决定了其相干的功耗研究是一个至关紧张的课题。
 
  低功耗计划是一个多层次题目,必要同时在操纵体系级、算法级、布局级、电路级等多个层次上举行研究。每个层次的低功耗计划要领实现的结果差别——抽象层次越高,功耗和温度低落的结果越明显。
 
  8 存储器墙
 
  为了使芯片内核充分地事变,最最少的请求是芯片能提供与芯片性能相立室的存储器带宽,固然内部Cache的容量能办理一些题目,但随着性能的进一步进步,必须有其他一些本领来进步存储器接口的带宽,如增长单个管脚带宽的DDR、DDR2、QDR、XDR等。同样,体系也必须有能提供高带宽的存储器。以是,芯片对封装的请求也越来越高,固然封装的管脚数每年以20%的数量提拔,但还不克不及完全办理题目,并且还带来了本钱进步的题目,为此,怎样提供一个高带宽,低耽误的接口带宽,是必须办理的一个紧张题目。
 
  9 可靠性及寂静性计划
 
  随着技能改造的生长,处理惩罚器的应用渗入渗出到当代社会的各个层面,但是在寂静性方面却存在着很大的隐患。一方面,处理惩罚器布局自身的可靠性低下,由于超微细化与时钟计划的高速化、低电源电压化,计划上的寂静系数越来越难以包管,妨碍的产生率渐渐走高。另一方面,来自第三方的恶意打击越来越多,本领越来越先辈,已成为具有广泛性的社会题目。如今,可靠性与寂静性的进步在谋略机体系布局研究范畴备受注目。
 
  以后,CMP这类处理惩罚器芯片内有多个进程同时实行的布局将成为主流,再加上硬件巨大性、计划时的失误增长,使得处理惩罚器芯片内部也未必是寂静的,因此,寂静与可靠性计划任重而道远。