2020/12/11 13:45:56
来源:芯东西(公众号:aichip001)
GTIC 2020全球AI芯片创新峰会刚刚在北京圆满收官!在这场全天座无虚席、全网直播观看人数逾150万次的高规格AI芯片产业峰会上,19位产学界重磅嘉宾从不同维度分享了对中国AI芯片自主创新和应用落地的观察与预判。
在峰会下午场,Cadence公司验证事业部产品工程总监孙晓阳带来主题为《AI大时代中的芯片设计验证挑战》的演讲。
孙晓阳谈及芯片设计流程存在的三个关键挑战,并讲解了Cadence的强大验证产品套件,以及如何引入AI算法,来应对日益高涨的算力需求。
据孙晓阳分享,增强机器学习能力的新Xcelium ML逻辑仿真平台在落地实例中,将完全随机回归运行的周转时间缩短至原来的1/4,同时能够达到原有功能覆盖率99%。以下为孙晓阳演讲实录:
一、芯片设计难在何处?
在数据爆炸的时代,算力毫无疑问成为整个行业最具挑战或亟待解决的一个领域。作为国际知名EDA及IP供应商,Cadence希望其产品及方案可以助力大家在AI的海洋里面畅游。在此次峰会上,孙晓阳代表Cadence,分享了他们所观察到的一些芯片设计挑战。
从底向上来看,单一芯片的设计复杂度非常高,AI芯片同样如此,有模拟、数字和混合信号,有先进工艺节点,及数十亿门芯片的实现与验证,这些都给芯片设计带来复杂度。
因此,芯片设计者不仅需考虑单一芯片的设计,还要考虑芯片周边整个系统的设计,包括电磁和热分析,加上驱动程序、操作系统和应用性能,整体来看整个系统的性能。
在这之上,还要考虑运行在系统中心或者系统上的智能应用,包括学习、感知算法、定制化的用户体验,以及针对应用工作负载的计算优化等。
基于这些认知,Cadence着力于提升所有产品线从芯片设计到智能应用的所有算力,不再是单点或者局部地去看待芯片设计本身,除了芯片的设计、封装等事情外,还考虑到系统的设计,考虑到用户可能存在的算法需求、软硬件协同需求等问题,并在引入AI算法,与客户一起应对挑战。
孙晓阳来自Cadence系统设计和验证产品线,因此在演讲中,他更多分享了关于系统仿真和验证相关的产品和解决方案。
如图是一个芯片设计的典型周期,造出一颗芯片往往需要两三年的时间,当然不全是设计的缘故,比如需花一些时间做架构的探索和定义等。从图中可以看到,软件起到很大的作用,尤其在AI芯片的设计领域,由软件驱动一个芯片的设计正变得越来越重要。
这是因为,很多AI结构具有重复性、通用性的特征,上面跑的软件及PPA表现,是芯片设计成功的关键。因此软件越早介入,越能够保证最后出来的芯片是成功的。
我们看到,也许在有RTL、有代码之前,可能要先做模型,从全部或部分的模型开始,在上面运行各种各样的软件,去评估架构,评估通路、带宽、存储等各类参数,来达到最好的平衡。
Cadence有虚拟的平台来支撑各种模型的仿真,有各种RTL+部分模型的仿真,有非常知名的Palladium硬件仿真加速平台,还有基于FPGA的原型验证平台Protium X1,能运行对性能、功耗、功能等各方面的验证评估。
二、破解芯片设计验证挑战的三大平台
今天在中国,人们享受到了物流带来的便利性,可以看到在城市中,有货车、卡车、飞机在城市群周边做物流快递。其中前两者装卸相对容易,但跑得慢;飞机跑得最快,但装卸流程相对复杂。这里有一个概念,引擎越快,就要做更多准备工作来使能引擎,以实现更好的性能。
类似的,Cadence提供有并行逻辑仿真平台Xcelium、硬件仿真加速平台Palladium、基于FPGA的原型验证平台Protium等。Xcelium跑在100Hz水平,Palladium跑在1MHz,而Protium能跑在5MHz。
因为性能不同,应用场景也不一样,Xcelium主要做IP的仿真评估,Palladium面向SoC芯片的仿真验证,Protium则可以使能完整系统的开发调试。
Xcelium相比上一代有很大的性能提升,Cadence在产品中大量使用AI算法来加速性能,包括分布式计算。“可以看到,我们一边面临AI应用带来的挑战,一边也在使用AI算法来提升算力。”孙晓阳说。
Xcelium最新发布的AI-机器学习赋能技术,可以让验证的吞吐力得到提升,能使覆盖率收敛更快,可达到5倍的速度提升。例如在一家芯片公司应用最新的Xcelium ML平台的案例中,将完全随机回归运行中的周转时间速度提升4倍,达到原来产品99%的功能覆盖率。
其原理如上图所示,跑整个覆盖率回归是一样的,有上千条、上万条的case放到计算中心上运行,花这么多的时间才可以结束,在这个过程当中,机器学习算法就可以去学习case和覆盖率之间的关系,从而创建一个模型,并产生更高效的测试集和相应的随机化参数,就能在更短的时间(比如1/4、1/5的时间),达到相当的覆盖率,从而缩短验证时间。
还有多核仿真,在仿真回归中,一定有一些需要花很长时间才能做完的case,针对这些case,如果有足够的算力,用分布式的计算方式,就能缩短整个验证回归时间。
Palladium是业界的明星产品,主要用作仿真加速,Palladium是基于Cadence自研CPU做出来的平台,Protium是基于赛灵思的FPGA做出来的平台。正如刚才提到的,要应用更快的引擎,势必做一些准备工作。这个准备工作对用户来讲是一笔开销,怎么减少这笔开销呢?Palladium和Protium用的是完全统一的前端编译系统、编译流程,这致使一个设计在Palladium跑起来后,要将它移植到Protium上就会非常简单。
孙晓阳现场给大家一个参考,有些AI公司在40亿门左右,系统厂商在140亿门左右,或者其它超大型公司有30亿门左右,在Palladium和Protium是这样的比例。
他也再次强调软件驱动的重要性,软件越早介入,就能让芯片或整个开发周期缩短,一开始用全部虚拟的平台,有模型就可以开始做很多开发和评估。
最近很多AI、GPU公司都遇到这样的需求,它的主力可能是做GPU或AI算法相关IP,而不是CPU、互连等技术。于是在开始确定一些架构的时候,它们可以拿Cadence的虚拟平台来建立一个虚拟CPU、真实的GPU或AI IP,然后就能去做开发和评估。
因此全套软件可以贯穿从虚拟到部分IP芯片的混合动力仿真到整个芯片回来的整个流程。很多客户已经有部署这个方法学流程,比如博世主要关心它的IP,很早就可以介入软件开发;再比如英伟达做的是大型的系统,当Cadence把CPU从RTL中搬出来后,性能可以得到更大的提升。
三、EDA是关键性少数
接着,孙晓阳谈到AI芯片的几个关键点,包括存储、互联及一些相关IP。Cadence在这些先进制程领域,IP追得非常紧,包括内存、DDR、HBM等都紧追最新标准。除了有IP,大家还有验证IP产品VIP,Cadence在验证方面也会有相应的解决方案,今年已追到像PCIe6这样的标准。
芯片做功能验证,还要追求PPA的指标等事情。在SoC系统上,除了用Cadence的IP之外,也可以用Cadence System VIP产品去模拟整个数据流,从而帮助实现很多系统级分析,还能自动生成test bench,来降低人工的时间。
Cadence还有其它的产品、验证和设计的管理,比如有企业级的验证管理方案,从计划到实施到最后的覆盖率,能满足跨地域团队验证的流程;还有调试,在整个验证的cycle里面,调试约占70%的时间,因此调试工具毫无疑问是最重要的,新的Indago Debug平台可以提升调试的效率,并且有开放的接口,性能也在持续提升。
在演讲末尾,孙晓阳总结说,此次演讲主旨很契合当下的新基建,过去二三十年间,中国持续做高速公路的建设、高铁的建设,是今天快速物流的前提。而Cadence相当于在做基建的工作,提供快速的计算平台,让各位的计算诉求在计算平台上跑得更快。今天的新基建是另外一种,它不是钢筋水泥,而是数据中心、绝对算力、AI芯片这样的更高级的东西。这些逻辑是一脉相承的。
Cadence采用了大量的算法来持续提升这些引擎的计算能力。孙晓阳主要代表Cadence的系统设计和验证团队,但其产品线远不止于验证部分,还有时限、布线、系统分析等很多其它产品线。Cadence持续打造“Intelligent System Design”的全流程解决方案,更好地服务于客户。
最后,他提到20年前刚进入EDA行业时,一位前辈曾跟他讲过的话:“EDA是关键性少数。”
就算是两年前,鲜少有大众能够理解EDA是什么,而今天大家都在谈EDA,其“关键性”毋庸置疑。
但是少数还没有变成多数,孙晓阳非常高兴看到这么多人做AI芯片,希望有更多的人投身EDA行业,使其变成关键性的多数,带来更快的进步。
以上是孙晓阳演讲内容的完整整理。除了孙晓阳外,在本届GTIC 2020 AI芯片创新峰会期间,清华大学微纳电子系尹首一教授,比特大陆、地平线、燧原科技、黑芝麻智能、壁仞科技、光子算数、知存科技、亿智电子、豪微科技等芯片创企,Imagination、安谋中国等知名IP供应商,以及北极光创投、中芯聚源等知名投资机构,分别分享了对AI芯片产业的观察与思考。
声明:本网站部分文章转载自网络,转发仅为更大范围传播。 转载文章版权归原作者所有,如有异议,请联系我们修改或删除。联系邮箱:viviz@actintl.com.hk, 电话:0755-25988573