Intel GPU的野望:从游戏到数据中心

       像这样的大型活动现在很常见。他之前的经验一般与图形计算有关。比如1996年首次加入的3, 2015年成为首席架构师兼技术部高级副总裁时被大众所熟知, 加入后成为技术代言人。有趣的是, 这也伴随着半导体行业的一个转折点:人们越来越关注计算更加专业化的方向, 甚至有人提出这样的通用计算处理器未来会被边缘化, 或者变得越来越纯粹的控制。设备存在。 , , 等现在都闪闪发光。因此, 这些年的战略也一直在积极扩张, 通过收购和研发迅速推出不同的处理器产品线。比如现在是一个开发重点, 不仅核心显示性能在过去两年Core产品线有两次大幅提升(以及不久前游戏品牌的正式发布;而且还不止一个一年前, 发布了一张(对于数据中心的照片引发了无数猜想。今年的版本,

更多的产品信息被曝光了。这次主要讲的是面向游戏玩家的架构;以及面向数据中心的架构芯片。后者被形容为技术难度较大, 与登陆月球的芯片相比, 这也是我们第一次看到这种形式的芯片(内容后面会更详细的分析。虽然我已经尝试过之前多次进场, 这一次恐怕是动作最大, 计划也最多的。从长远来看, 趁着这个机会, 我们也可以看看, 作为一个新手, 是否有机会一争高下在两个权力(一个nd 数据中心 British我们在伟达家族的统治下取得了一些成绩;此外, 我们还可以窥见当代思维一般会是什么样子。这篇文章比较长, 分为三个部分, 可以选择性阅读。如果不想看技术细节, 可以跳过中间部分, 直接看最后的总结。 1 游戏玩家的架构; 2 数据中心芯片; 3 总结、开发平台。游戏方面, 台积电6制程在公布架构的时候, 就提出用一种架构进行灵活扩展, 实现产品覆盖各个领域, 包括低功耗平台、游戏、工作站、数据中心等。
        , 相同架构的规模扩展也是常态。之前的规划和规划是有区别的, 针对不同的群体, 如下图: 这次的重点之一是。从这个介绍来看, 不同架构之间的差异也可能比较大。这次的新架构与之前集成在Core处理器中的架构有很大的不同。或者不仅仅是一个放大版本。首先, 在构成的基本单位方面, 在决定不再使用之前(执行单位本来就是我们过去讲的核显, 用多少来表示它的规模。对于比如移动版的11代酷睿, 我们说它上面最多有96个核显。据说放弃这个说法的原因是数量变得太大了, 无法参考;而迭代的变化使得很难比较。所以这次引入了一个新的基本组成单元:核心。核心包括算术单元、、逻辑单元。算术单元部分包含通用向量引擎, 以及加速卷积的介绍和矩阵运算引擎。有兴趣的同学可以复习一下最小的组成单元和集群。感觉还是核心在分割粒度上更大更近。对于案例, 核心包含16个向量引擎和16个矩阵引擎, 如上图所示。一个向量引擎每个周期处理 256 个数据, 16 个加起来似乎类似于 Nvidia Ampere 架构的单位吞吐量。这里的矩阵引擎, 也称为(, 在结构上就是传说中的脉动阵列(。后面会提到, 在游戏方面, 这种需要计算能力的超分辨率特性是有价值的(类似于Yu。核心矩阵引擎流程)每个周期1024个数据, 转换成普通运算, 就是1288。NVIDIA也有配套工具, 算是业界的主旋律了。不过NVIDIA的配置没那么激进, 就这样搞定了. 每个核心都带来. 似乎比英伟达更看好未来, 不知道怎么想. 要知道这只是一个游戏. 多个这样的核心构成所谓的(渲染切片.一个当然有4个核心, 除了核心, 还有其他渲染固定功能单元,

有4个光线追踪单元, 4个纹理采样器(, 还有几何, 光栅化单元, 像素后端(实现8个吞吐量) ). 在层面上, 实施 c ore 的粒度似乎比以前更细了, 包括核心数量和固定功能单元的配置。特别强调为12设计, 所以支持(可变着色率2, , , , 当然还有光线追踪(, 这里是光线追踪)。单位应该也是很多人比较关心。提到这些光线追踪单元是为了加速光线遍历(、边界框相交(和三角形相交计算)而设计的。这应该是光线追踪比较常规的硬件设计思路, 我们之前有一篇文章讨论过。光线追踪?, 还是等以后的产品出来才知道。整体层面, 就是把这些结合起来, 通过连接这些来共享2。在配置方案中,

最多可以连接8个。完整的前端还会有一个全局处理组成的其他组件, 比如显示、媒体引擎等, 大概要等到具体的产品出来了, 才会公布具体的规格。还是未知配置是什么。。不过它最大的可扩展方案, 性能上应该比核显和之前不可用的1(, 以及后续的功能如追光单元也显示前1个是训练。还特别提到, 与(1)相比, 在架构、逻辑设计、物理设计、工艺改进、软件迭代等方面的努力, 在工作频率和每瓦性能方面都实现了15倍的提升。特别是, 频率提升是相同电压下频率提升的15倍。考虑增加更大的规模(例如使用8, 性能比1高几倍应该不是问题。当涉及到工艺改进时, 使用台积电的6制程制造是对之前7制程的修改, 也成为了20计划中第一批实施的产品, 看来20的进展还是比较顺利的。当产品出来的时候从(20221)来看, 6制程的产品也会有一定的优势。之前芯显和1用的是10制程。虽然最终产品的很多配置细节都没有透露, 比如选了多少内存, 以及频率是多少, 以及同类光追单元的性能水平等等。
       不过, 架构层面的信息和6工艺在制造上的微弱领先, 让游戏的准备工作似乎很到位。此外, 还给出了家族未来的路线图, 代号、、、、、的新架构正在开发中, 说明这次做游戏还是很认真的。生态也特别值得一提, 毕竟也是这个领域。一直在这方面努力, 也不是一朝一夕能超越的。会议上提到, 主要包括对光线追踪、、、、等12个新功能的全面支持。据说这几年我们一直在和微软合作打磨新功能。此外, 我们也在与我们合作, 现在我们的单机可以运行虚幻引擎5。产品发布后, 我们还将更新我们的用户控件, 以帮助玩家利用辅助虚拟相机、游戏精彩瞬间捕捉、实时捕捉等技术等。这些技术将使用我们的高性能和高质量的硬件编码器。特征支持特别值得一提的是(这类似于超分辨率技术, 即通过深度学习合成低分辨率图片合成高分辨率渲染图染料质量图片。关于英伟达技术, 我们之前已经多次提及。说和更接近(不是, 因为一般解释都提到原理是通过对图片中的相邻像素和过去帧进行运动补偿来重建亚像素细节。这个过程需要通过神经网络来完成, 而NVIDIA的两个一代比较相近, 这个操作明显是内核中的硬件加速, 会上还演示了1080转4屏, 对比原生4分辨率渲染,

效果看起来还不错, 好像是在光线追踪中另外, 超分辨率技术也成为厂商的技术战场, 更有意思的是, 计划是超越(这更像是包括竞争对手的产品。我们用4条指令来实现这一点, 这指令已经在各种硬件产品中使用, 这将带来数百万游戏玩家。据说很多早期的游戏开发者已经开始采用。初始版本将于本月面向软件厂商推出。 , 第四版将于今年晚些时候推出。我们之前写的第一个, 越来越大, 接近光刻机可以处理的,

所以未来的发展方向很有可能是趋势(只是形态学的解决方案而已。只是技术上还是有难度的之前英伟达和英伟达都在这方面发力, 现在看来最早的push模型好像是花了很多时间解释的, 采用架构, 面向数据中心, 主要针对和workloads。据说这个芯片的实现堪比登月计划, 现在是数据化的中央、、芯片产品喜欢在发布会上用来挂至强处理器。就计算能力而言, 使用更专业的芯片来击败通用处理器听起来还不够公平。但是, 从行业趋势来看, 早就应该发现, 数据中心的重要性已经没有以前那么大了。即使这次增加了新的各种专用加速单元, 也势在必行推动更专业的芯片作为数据中心的主场。演讲中也特别提到了这一点。所以或者说使命是在很大程度上填补空白(本报告中没有提到的新发布的基础架构处理器, 其实也有这样的使命。你没看到英伟达现在在数据中心赚了很多钱吗?是不是满了?上图蓝色曲线代表处理器, 绿色代表业界最好(NVIDIA?, 内存带宽有历史差距, 会挂的情况。是架构立志要引领行业, 那我们再来看看架构, 还有芯片, 上面也说了, 也是以核心为基本单元, 不过在核心构成上, 还是有区别的。前面说过, 每个核心是16个向量引擎和16个矩阵引擎, 上面是8个向量引擎和8个矩阵引擎(。但是从单个引擎可以处理的数据来看, 它的量级是不同的。核心中的单个矢量引擎可以处理每个周期 512 个数据的 2 倍;而每个矩阵引擎, 一个 8 深度的脉动阵列, 每个周期处理 4096 个数据和 8 组 512 个宽向量运算, 它是没有任何切片, 或切片的概念。每个具体是4个:也就是说一个内部(最多会包含64个核心, 64个光线追踪单元, 4个。同理, 这个级别也会有2个(容量未知。另外, 作为数据center oriented , 4 2 controller 应该从外围扩展, 8 个专门用于它们之间的连接。
        媒体引擎部分, 仍然没有详细说明它的规格。 连接的魔力, 媒体引擎, 模块和组件。它是体现在多方案上。用于连接两者的封装技术(也就是之前介绍过很多的两种连接的封装技术, 这是一种不同于台积电使用硅中介做的封装和25封装)而是嵌入到封装基板中, 以更低的成本实现它们之间的互连, 效率会明显高于直接从封装基板走线的方案。直接连接, 做到统一并且它们之间实现了一致的存储, 这对于软件来说非常重要。业界第一部也发布。上图显示了2个方案。我不知道这种弹性扩展方案。然而, 这样的堆叠方式确实可以实现显着更高的性能水平。经过多重组合, 对于数据中心来说, 就涉及到两者之间的连接。对此的解决方案是, 支持大量数据迁移和同步语义;包括一个8个, 在一个节点内最多可以实现8个完整的互连, 无需额外的组件。就是说在加速模块的设计规范下, 大负载一般可以采用8的方案。不知道怎么连接费率是多少, 会议没有公布带宽等方面的具体数据。接下来就到了产品层面, 也就是本次展示的高亮芯片。当首席架构师展示这款芯片的时候, 我们还是对芯片的大小感到相当震惊:上面有超过 1000 亿个晶体管, 其中一些使用了台积电 5 技术。还记得之前的游戏使用的是台积电 6 吗?但实际上, 基于253封装的不同, 采用了不同的制造工艺。据说这款芯片一共涉及5种不同的制造工艺。这款芯片的开发, 不仅是上面提到的核心及其组成方法, 还涉及到各种新的架构和设计, 甚至是新工具的开发。我以前从来没有在一个产品中做过这么多新的事情。东西, 是我30年芯片开发中开发的最复杂的芯片。这是首席架构师所说的。最终目标是让它像芯片一样运行, 毕竟这是设计使然。把这颗芯片的组成分成不同的, 如 、 、 、 等。还特别提到, 封装方式中除了连接内存(以及上面提到的两者之间的连接)外, 3种封装方案是也用过。我们之前也写过一篇文章仔细讨论过包装。有的制程是台积电做的, 有的是自己做的, 所以这个方案的复杂程度可想而知。从这张图中, 似乎很难推断出哪个堆叠在哪个上面, 就说3。这里也很特别。分享了这款芯片实现的一些技术挑战, 比如位置、需要将在较早阶段完成。与芯片的连接数量也比以前的设计高出 2 个数量级。此外, 测试验证也非常复杂, 因此需要实时开发更多的工具、方法等。在这个芯片上, 也就是计算部分属于芯片的核心, 每个核心包含8个核心, 一共41个(好像和16个核心组成1个, 8个组成一个的方式不一样, 是某种柔性解决方案?. 用台积电5工艺制作. 做3个封装时, 这部分的pitch是36. 从之前公布的数据来看, 36的pitch应该是二代, 相比连接密度所以其实台积电最先进的制造工艺和最先进的封装工艺是同时凝聚的, 可以算是20战略的巅峰之作。 ,

基于7个工艺制造(即前面的10个, 其​​中包括各种和高带宽的元件, 包括2个, 还涉及到5个、2个的高速互连、桥接等, (。表示这是设计挑战最大的部分e芯片。另外, 负责多个互连的部分, 基于台积电的7个工艺, 最多支持90个, 其他部分不做介绍。总体来说, 0芯片(开发完成后的第一个硅流片?能达到的性能水平包括45单精度算力(参考NVIDIA安培架构100的32标称算力195、5带宽、2连接)带宽(应该指内部之间的高速连接。这组数字表明每个部分在实现上都比较健康)的。实际性能稍微提一下, 基于和图的50个推理性能, 每秒43000多图, 超过市面上能看到的标准。在训练方面, 我们仍处于早期阶段, 初步测试表明计算、内存和互连带宽能够训练最大的数据集和模型。我们现在看到每秒超过 3400 张图像的性能。这个表述还是比较模糊的, 尤其是在没有其他测试环境、没有价格、没有功耗数据的情况下。然而, 这种足够的堆叠材料应该会带来性能。最终的形式自然是一块板, 加上互连, 连接多个。意思是合作伙伴会提供上图等多种加速计算系统, 当然系统方案是配套的。 , 雄心勃勃的扩张计划 最后, 我们从硬件层面对新产品进行简要总结。事实上, 在最终产品层面, 还有很多信息没有披露。毕竟, 活动主要是关于架构和技术的。无论是架构的高性能游戏, 还是数据中心的新芯片, 都可以说明在这个方向上投入了巨大的人力物力。这次的起点很高。该游戏将于明年第一季度推出。主流的光线追踪, (超分辨率, 和12个领域的很多功能都准备好了, 而且在堆叠材料方面似乎并不比英伟达经济。在数据中心使用堆叠材料和工艺技术是甚至有点匪夷所思, 别说矩阵引擎和堆叠材料上的丰富核心, 我感觉一个芯片用了5个制造工艺, 2个5.3包同级别, 依然是行业第一。在这些配置面前, 1000亿个晶体管的数量是不够看的。难怪据说和登月计划一样难实现。从这样的投入来看, 对产品的期望完全不应该落后于其传统项目。毕竟, 正如文章开头所说, 行业现在的状态和格局已经与过去完全不同。随着摩尔定律的放缓, 各类器件的重要性在下降, 这是一个崛起的时代。只是以英伟达目前在游戏和数据中心领域的地位, 想要从它嘴里分一杯羹并不容易。最后, 我们可以从发展生态布局中看到一些蛛丝马迹。该策略强调同一套开发生态, 即这个软件平台的主要目的是用一套来实现不同硬件性能端口的对接。作为众多不同处理器类型的制造商, 并且在市场上仍然占据主导地位, 实施这种生态仍然具有一定的优势;虽然它仍然是英伟达的家。在这次会议上, 据说软件开发人员习惯用不同的专业语言重写需要加速的代码, 例如, 等。因此, 一个开放的、基于标准的、跨架构的、跨向量的统一软件提供堆栈。但其实它还是一个比较年轻的平台, 第一版直到现在才发布。指定了通用(硬件抽象层、数据并行编程语言, 以及解决数学、深度学习、数据分析和视频处理领域的各种性能库。更具体的, 本文将不讨论。比较值得提到Nvidia已经有, 并且和函数库实现。声称它已经被独立软件开发商、操作系统开发人员、最终用户和学术界广泛采用。公告称, 各领域的软件开发商已经推出了300多个基于统一编程模型的应用;现有开发人员超过 200, 000 名;并且我们有80多个关键应用、框架和中间件, 都采用了, 从目前有快速移植到仅基于, 或者基于的实现。
       除此之外, 还有 、 、 等各种配置。比如可以用于光线追踪的组件(光线追踪库, 据说可以应用到第三方处理器上, 比如Apple 1。更多功能, 几段很难介绍。但我觉得这些已经能够表现出在生态建设方面, 入侵竞争对手市场的野心。之前已经表达过的目标是实现开放、跨平台, 跨架构开发和实现. 它的推广动作和速度真的是相当快. Argonne 国家实验室和美国项目 硬件产品包括 , , Optane 已经在全面使用, 一个设备包含 2 和 6, 主要用于和. 公司现在的运行速度比以前快了很多。编辑:

友情链接: