2020/7/15 20:43:54
来源:雷锋网
总部位于英国的AI芯片公司Graphcore今天发布了第二代IPU GC200,采用台积电7nm工艺,晶体管数量高达594亿个,裸片面积达到823平方毫米。这比两个月前英伟达最新发布的安培架构GPU A100的540亿个晶体管增加了10%,黄仁勋当时说A100是全球最大的7nm芯片,裸片面积为826平方毫米。(有关A100,请参考附文)
IPU是一种全新的大规模并行处理器,雷锋网此前报道,已经推出了基于台积电16nm工艺集成236亿个晶体管的GC2 IPU,120瓦的功耗下有125TFlops的混合精度、300M的SRAM能够把完整的模型放在片内。
第二代IPU GC2000(MK2)与第一代IPU(MK1)相比,实际性能提高了8倍。Graphcore联合创始人兼CEO Nigel Toon表示,GC200是目前世界上最复杂的处理器,可使创新者实现AI的革命性突破。
Mk1 IPU产品与Mk2 IPU产品性能对比
据悉,GC2000芯片内部有1,472个独立的处理器内核,能够执行8,832个独立的并行线程,所有这些均由900MB的RAM支持。
Nigel说:“GC200在处理器内部具有史无前例的900MB超高速SRAM,在每个处理器内核旁边都设有大量RAM,以实现每位最低能量的访问。Graphcore的Poplar软件还允许IPU通过Graphcore独特的Exchange-Memory通信访问Streaming Memory。这甚至可以支持具有数千亿个参数的最大模型。每个IPU-M2000都可以支持密度高达450GB的Exchange-Memory,以及前所未有的180TB/秒的带宽。”
Graphcore IPU-Fabric技术
除此之外,基于最新GC200的一款即插即用的机器智能刀片式计算单元IPU-M2000还集成了Graphcore的专用AI联网IPU-Fabric。新的Graphcore GC4000 IPU-Gateway芯片可以让每个IPU-M2000提供2.8Tbps。Graphcore称,在从数十个IPU扩展到数以万计个IPU的过程中,IPU-Fabric技术使通信时延几乎保持恒定。
据悉,1U大小的IPU-M2000可提供1个PetaFlop的机器智能计算。利用IPU-M2000可构建成IPU-POD64的模块化机架规模解决方案。IPU-M2000的设计使客户可以在IPU-POD配置中构建多达64,000个IPU的数据中心规模系统,提供16ExaFlops的机器智能计算能力。
Graphcore也强调,其Poplar SDK可以使开发者无论使用单个IPU还是要使用数千个IPU完成机器智能工作负载都可以让过程变得简单。
Graphcore高级副总裁兼中国区总经理卢涛表示,中国很可能成为Graphcore最新推出的第二代处理器技术最先实现商业化落地的区域之一。
NVIDIA大型A100 GPU不适合您
英伟达推出的 Tesla A100 SMX模块,搭载了GA100 GPU和6个HBM2(e)显存。GA100是2020年7月之前发布的最大型GPU,英伟达使用了7nm制程制备。外媒称,GA100拥有540亿个晶体管,是Volta GV100的两倍多。在AI训练(单精度操作)方面,新款GPU的能力将是Volta的20倍。在高性能计算(双精度运算)方面,新款GPU将会达老款2.5倍。
来源:腾讯网
NVIDIA最新的GPU,A100及其新的图形体系结构Ampere。在公司长期推迟的GTC会议上宣布,A100不适合游戏玩家,甚至不适合工作站用户。相反,它是基于Volta的V100的直接替代产品-V100是为数据中心专门构建的2017 GPU。
除了Titan V和Quadro工作站卡之外,Volta从未直接吸引消费者,但是它引入的改进和张量核心是Turing的关键部分,该架构几乎支持了NVIDIA当前所有的GeForce和Quadro卡。无论下一代GeForce和Quadro卡也被称为Ampere。
NVIDIA在Ampere的细节方面有些模糊,但我们知道A100 GPU 很大。它的芯片尺寸为826平方毫米,大于V100(815mm2)和NVIDIA的旗舰游戏卡RTX 2080 Ti(754mm2)。
这些听起来可能并没有什么大的不同,但是A100是NVIDIA的第一款基于台积电7纳米制程的GPU-其当前型号为12纳米。这意味着每个晶体管所需的空间大约减少了40%,这显然使NVIDIA将540亿个晶体管压缩到A100中。我们说这显然是因为,与2080 Ti的186亿个晶体管相比,这是一个巨大的增长,几乎感觉到有人在数学上做错了。话虽如此,一些快速计算得出A100的晶体管密度约为每平方毫米6500万,这在台积电7纳米工艺的可能性范围之内。
A100远离晶体管,拥有6,912 FP32 CUDA内核,3,456 FP64 CUDA内核和422 Tensor内核。相比之下,V100具有5120个CUDA内核和640个Tensor内核,您可以看到新工艺对NVIDIA将更多组件压缩到一块芯片中的影响有多大,该芯片仅比替换的芯片大一点。
A100的销售包装为DGX A100,该系统具有8台A100,一对64核AMD服务器芯片,1TB RAM和15TB NVME存储,价格仅为200,000美元。就背景而言,DGX-1是一款具有8个V100的类似系统,在发布时的成本约为15万美元。这相当于将世代价格提高了33%,但NVIDIA声称A100在AI推理和培训方面的速度是V100的20倍。而且AI实际上是所有这些卡都可能会用到的-NVIDIA已经将DGX A100出售给了该领域的合作伙伴,并将其中的一张发送给了Argonne国家实验室,以帮助对抗COVID-19。
这种20倍的性能提升部分是由于内核的大量增加, A100还受益于其内存:它具有40GB的HBM2内存,而V100推出时只有16GB(该公司后来将Volta卡的内存提高到32GB),这意味着每个DGX A100系统都可以播放320GB的VRAM。
那么,这能告诉我们有关NVIDIA备受期待的新游戏卡的什么信息?好吧,具体来说,这些AI改进中的某些改进将在GeForce卡中找到它们的用处,从而改善诸如DLSS或降噪等升档任务的性能,这是光线追踪的关键方面。
NVIDIA首席执行官黄仁勋完全确认,尽管安培和即将推出的消费卡之间存在“架构上的巨大重叠”,但这些游戏卡将不具有HBM2内存,并且尺寸不同芯片中的元素将有很大的不同,因为它们将比高精度数学更多地关注图形性能。这意味着对于消费类卡而言,您应该期望FP32计算获得更高的收益(这是TFLOP数据,当您启动新的GPU或控制台时就会听到这个数字),因为A100的大部分芯片都交给了FP64处理器。硬件。
进入理论设计阶段,完全针对游戏的,大小为2080 Ti且密度接近A100的GeForce GPU可能会快两倍。需要明确的是,这种情况极不可能发生:NVIDIA可能会大幅缩小芯片尺寸,降低成本,并以与当前一代相似的价格出售更快的显卡。 “3080ti”将有超过2080ti,这可能使对于一款旗舰GPU上备受更合理450平方毫米约30%的多内核。
Graphcore二代IPU发布,7nm制程片上存储高达900MB
来源:DeepTech深科技
第二代 IPU(智能处理单元)——Colossus MK2 GC200 和基于前者、可用于大规模集群系统的 IPU-Machine——M2000。同时,他们还宣布同金山云达成合作,并已推出面向开发者的 IPU 云服务。
专门为人工智能计算设计
从名字就可以看出,Graphcore 的 IPU 产品是专门为人工智能计算所设计,在这个赛道,IPU 被其缔造者们认为具有天然的优势。
据悉,本次发布的 GC200 仍然延续了第一代的“同构众核”架构,所不同的是,制造工艺从 16nm,提升为最新的 7nm。
得益于此,加之技术迭代,GC200 的处理器片上存储从 300MB 提升到了 900MB,晶体管数量更是达到了惊人的 594 亿(裸片823平方毫米),较 NVIDIA 今年5月发布最新旗舰 A100 的 540 亿还要多。
它的处理器核心从上一代的 1217 提升到了 1472,能够执行 8832 个单独的并行线程,系统性能提升了 8 倍以上。
在数据处理方面,GC200 也延续了之前的高带宽高容量表现,这对于应对一些复杂的 AI 模型及算法很有帮助,官方声明它足以支持具有数千亿个参数的最大模型。
通信方面,Graphcore 推出了自创的 AI 专属的 IPU-FABRIC 横向扩展结构。官方表示,该结构的延迟为 2.8Tbps,最多支持 64000 个 IPU 之间的横向扩展。
M2000 是 Graphcore 推出的基于 GC200 的刀片型服务器,每片能提供 1PetaFlop 的算力支持。M2000 可以被看作是 Graphcore IPU 系统产品部署的最小单元,基于它可以很方便地创建各种规模的集群。
性能PK
Graphcore 对外一直宣传 IPU 可以同时进行很好的“训练”和“推理”,本次其官方虽然因对标的 A100 未公布结果而无法对比,但通过与自家上一代的对比,仍能间接看出明显的进步。
可以看到,在 NLP 中,相同框架的情况下进行推理运算,NVIDIA V100 表现仅为 C2 的一半。
同样的条件,一代 C2 较 V100 提高了6.8倍,GC200 较 V100 提高了14.8倍。
综上,第一代IPU 相较于 NVIDIA 上代旗舰 V100 的表现可圈可点,而二代 IPU GC200 的表现与 C2 相比有了 7 倍以上的提升。
可凡事也总有两面,GC200 同构众核的设计方案,虽然非常擅长处理大规模的并行计算,但也并非没有弱点,如在做稠密矩阵这类并行特征较弱运算时表现就要稍逊。
这个方案就像一把锤子,需要找到合适自己的钉子,才能发挥其最大优势。
需要说明的是,没有一种架构能适应所有 AI 计算场景,一切都是权衡的结果。想要充分调用算力,除了底层的硬件设计,在软件层面的调校也非常重要。
在 DeepTech 问及是否考虑在 MLPerf 平台测试时,Graphcore 高级副总裁兼中国区总经理卢涛这样回答。“Graphcore 是 MLPerf 的成员之一,未来我们有计划在 MLPerf 组织里发挥自己的影响力,但是目前我们的策略跟其他友商不太一样,因为我们的 IPU 要解决的问题和 GPU 所解决的问题并不完全一样,可事实上 MLPerf 的 benchmark 是倾向于 GPU 架构的,很多适合于 IPU 的数据集和模型并没有加入到测试集中”。
快速成长
截止目前,这家成立仅 4 年的英国年轻公司已经累计获得了 4.5 亿美元融资,其投资人中既有红杉这样的金融投资者,也有戴尔、三星、微软这类战略投资者。与此同时,其团队规模也从几十人,发展到全球 430 人,其中工程技术人员占比 80% 以上。
作为资本的宠儿,Graphcore 显然并不满足于英国本地的发展,根据其官网显示,除英国本土,Graphcore 已经在中国、美国、挪威等地设立了分公司,其中中国包含两处,分别位于北京和台湾新竹。
卢涛表示,中国目前 AI 产业的体量可能是全球几个最大的国家之一,但论落地速度中国绝对是世界最快的国家,没有之一。未来我们将一面加强国内团队、开发者社区的建设,一面同国内各大云服务公司、AI产业公司加强沟通,展开合作。
声明:本网站部分文章转载自网络,转发仅为更大范围传播。 转载文章版权归原作者所有,如有异议,请联系我们修改或删除。联系邮箱:viviz@actintl.com.hk, 电话:0755-25988573