当前位置:首页剪辑技巧geforce3000系列显卡架构,geforce rtx 2060 是什么架构

geforce3000系列显卡架构,geforce rtx 2060 是什么架构

从2018年的Turing架构开始,NVIDIA GPU正式进入了实时光线跟踪和人工智能加速的时代。 从最初Eidos Montreal率先在《古墓丽影:暗影》上进行阴影部署,到当前全球光线跟踪的大胆进步,短短四年间,软硬件更新换代的步伐开始加快。 从此,NVIDIA开启了核心架构两年一更的节奏。 在Ampere体系结构发布两年后,产生了世界上第一个名为Ada Lovelace的新体系结构。

世界上第一个女性项目Ada Lovelace从好莱坞工业的光影创作到游戏,实际情况对于复杂的光影和现实场景模拟变得更加严峻。 例如,《赛博朋克2077》的光线跟踪模式需要按像素计算635条光线跟踪路径,而2018年《战地5》刚上市时,仅39条光线跟踪路径就可以爆炸无数台PC。 在NVIDIA GTC 2022的主题演讲中,Ada Lovelace GPU体系结构与前代Ampere GPU体系结构相比,具有2倍以上的传统光栅化游戏效率和4倍以上的光线跟踪效率。 在随后的媒体日中,NVIDIA工程师为我们详细回答了Ada Lovelace体系结构的细节。 花点时间了解一下NVIDIA GeForce RTX 4090背后的AD102核心和Ada Lovelace体系结构的特点。

Ada Lovelace的提高可以简单概括为三个方面:

流程和设计修改: NVIDIA利用台湾积体电路制造4N定制工艺和改进的电路设计进一步扩大了芯片规模,完整的AD102内核由763亿个晶体管和18432个CUDA内核组成,工作时钟频率可达2.5GHz以上。 在进行了部分取舍后,量产的GeForce RTX 4090的TGP耗电量与GeForce RTX 3090 Ti相当,但效率翻了几倍。 更快的光线跟踪:第三代RT Core提供了两倍的光线直线交叉吞吐量,以及微映射透明度引擎( Opacity Micro-Map,OMM )和微网格替换引擎( displaced micro-map,OMM ) 其中OMM主要用于优化光线跟踪渲染,减轻着色器负担,DMM是用于光线交叉加速的分层边界盒加速算法( Bounding Volume Hierarchies,BVH ) NVIDIA DLSS 3:第四代前端通过结合光流加速器( OFA )实现AI帧生成,DLSS 3相对于DLSS 2帧速率为2

现在,让我们逐一分析这三个重要的更新。

AD102进化论为GTC 2022上首次推出的Ada Lovelace体系结构产品提供了GeForce RTX 4090的AD102、GeForce RTX 4080 16GB的AD103和GeForce RTX 4080 12GB的AD103 此外,GeForce RTX 4090中使用的AD102也不是完整的版本。 第一次评测的时候详细说明。 在完整AD102上,有12个图形处理簇( GPC )图形处理簇,72个纹理处理簇( TPC ),144个流多处理器( streamingmults ) 以AD102为例,每个GPC都使用一个光栅引擎( Raster Engine,RE )、六个TPC和两个光栅进程分区( Raster Operations partitions )。 每个光栅处理分区包含8个光栅处理单元( Raster Operations,ROP ),因此总共为16个ROP。

在下一个级别,每个TPC包含两个SM。 下一级是包含大量设备的流式多处理器( Streaming Multiprocessors,SM )。 以Maxwell架构开始,SM下细分为Sub-Core的概念,AD102每个SM包含四个处理块,每个处理块包含64KB的寄存器堆,一个L0指令缓存,一个Warp

此外,每个SM包含16个FP32专用的CUDA Core,并且包含16个可在FP32和INT32之间切换的CUDA Core,因此总共为32个CUDA。 它还包括一个第三代RT Core、四个第四代Tensor Core、四个纹理单元、256KB寄存器堆以及可根据需要配置的128KB L1共享缓存。 此外,没有显示每个SM实际上包含两个FP64核心。 FP64的TFLOP比率是FP32的1/64,为了保证FP64代码正常工作,包含FP64 Tensor Core代码。 RT Core负责遍历分层边界盒加速算法( BVH )的数据结构,执行射线/三角形和光线边界盒的交会计算,也是实时光线跟踪在游戏和专业APP应用中实现以来负载最大的引擎其中,边界盒碰撞发生在下图左侧的边界盒碰撞引擎( Box Intersection Engine )中,而射线/三角形相交测试发生在右侧。

同时,Ada Lovelace的第三代RT Core为第二代RT Core提供了下图左下角的微映射透明度( Opacity Micro-Map,OMM )引擎和右下角的微网格替换( displaced micro ) 具体工作原理是

前述的128KB L1共享缓存,即从Turing架构开始的统一缓存架构,取决于驱动程序或开发者对L1缓存和SharedMemory的定义。 SharedMemory的目的是允许Thread Block中的CUDA Thread共享数据,并通过上述的Warp调度器进行置备。 如果SharedMemory设置为0KB,则所有空间都归L1缓存所有。 也就是说128KB。 由于L1共享缓存和SM为1:1的关系,AD102的最大L1缓存为18,432 kb,估计比GA102的10,752 kb多71.4%。 更厉害的是,与Ampere相比,Ada Lovelace大幅改造了二级缓存,共计98、 304kB二级高速缓存,比Ampere GA102的6144KB提高快16倍,为光线跟踪带来了巨大的好处,最终在第三代RT Core的同时,NVIDIA和美光的通过电路设计和信号优化,GPU的内存速度从原来的19.5Gbps提高到了GeForce RTX 4080中使用的22.4Gbps,如果GeForce RTX 4090的24GB GDDR6X已满配置,则可以达到1TT

最后,介绍台湾积体电路制造4N NVIDIA定制流程。 这是NVIDIA与台湾积体电路制造工程师合作,优化GPU生产流程后采用的定制工艺技术,在台湾积体电路制造5N的基础上进行了改进。 这并不是NVIDIA第一次寻找台湾积体电路制造或三星定制流程,从台湾积体电路制造12nmffn(finfetNVIDIA定制),到三星8nm NVIDIA定制。 近年来,每一代GPU结构的更新伴随着台湾积体电路制造合作定制技术的升级,以及三星、台湾积体电路制造在制造技术命名上的营销过于奔放,数字往往小于实际技术,体现出技术的先进性。 在这种环境下,帕特格尔辛格执掌英特尔大权后,将计划中的10纳米更名为Intel 7,并默认了这类行业的潜规则。 抛开营销手段,台湾积体电路制造4N NVIDIA的定制技术确实更好。 GeForce RTX 4090的性能功耗比前所未有提高,在以与RTX 3090 Ti相同的功率运行时,RTX 4090的性能比其高两倍以上。 同时,RTX 4090的最高时钟频率也很容易达到2.52GHz,如果之后接受AIC的调教,达到2.8GHz以上也不是问题。 如上所述,我们可以做一个简单的总结。 完整的AD102核心包括:

18432个CUDA Core16个ROP144个SM144个第三代RT Core576个第四代Tensor Core576个纹理单元18,432 kbl 1共享高速缓存98,304 kbl 2高速缓存2.5GHz以上的提升频率最佳

这些硬件参数将继续成为GeForce RTX 40系列引领图形计算市场的硬件基础。 当然,这还不足以巩固NVIDIA的领导地位。 接下来将进入GeForce RTX系列争霸的两个核心:光线跟踪和DLSS。

第三代光线跟踪:两个新引擎,提升20倍经过4年多的运营,实时光线跟踪已经对内容创造和游戏行业产生了巨大的影响,光线跟踪带来的现实自然光线、散射、衍射、漫反射和阴影效果提升了现实场景的还原度现在,内容创作者开始利用GPU来设计更复杂的模型。 这样的模型往往由数十亿个三角形和环境设定组成。 为了应对更复杂的APP应用,开发人员需要面临两个挑战:存储和呈现性能。 在特定帧中,LOD(levelofdetail,LOD )降低了场景的复杂性,减少了对性能的需求,但实际上数量有限。 因为LOD几乎无法控制摄像机和玩家在视觉上的游荡位置,散射光可能在摄像机后方发生碰撞等,是一种奇怪的情况。 在Ada Lovelace体系结构的第三代RT Core中,NVIDIA工程师进行了三项更改。 首先,由于缓存的增加,第三代RT Core基于第二代RT Core再次计算辐射/三角形的测试吞吐量。 意味着射线/三角形求交测试模块从原来的2个再次增加到4个,是Turing架构的1个射线/三角形求交测试模块的4倍。 第二代和第三代RT Core工艺的变化可作为以下参考。

第二,第三代RT Core具有两倍的速度透明度遍历,这由新的微映射透明度引擎( Opacity Micro-Map,OMM )来实现。 OMM通过减少几何体透明度( alpha )测试的数量,最终减少着色器的透明度计算。 这一新功能允许开发人员紧凑地描述不规则形状、蕨类植物、栅栏等半透明物体,从而使第三代RT Core能够更有效地执行光线跟踪。 第三,添加微网格替换引擎( Displaced Micro-Mesh,DMM )。 这样,第三代RT Core就可以在盒子加速算法( bvh )空间中以10倍的速度运行bvh。 DMM也是用于处理RT Core局部微求交结构网格的全新单元,通过使用较少的基本求交三角形来描述比以往更复杂的几何形状。 根据以上三点,第三代RT Core可以在不增加处理时间和存储器消耗量的情况下实现更高效的光线跟踪计算。 但是,还不够。 NVIDIA正在制造巨浪。 在接近真实场景的实时光线跟踪中,各种环境变化意味着原本应该重要的原始处理工作量越来越少。 相反,逆色、间接照明、半透明效果的二次折射等计算会占用很多着色器资源,使着色器忙于无意义的二次反射、漫反射等场景,从而降低效率。 如果不解决,GPU在规则的正常执行方法中效率非常低。 因此,Ada Lovelace体系结构引入了着色器执行重新排序( ser )功能,使着色器能够更智能地调度每项工作的重要性。 是的,在一定程度上,GPU也具有按顺序执行的功能。 现就上述三种发动机展开分析。 微图透明度引擎( OMM )开发者经常使用纹理透明通道经济的复杂形状或半透明效果。 例如,叶子组合几个三角形和纹理透明通道( alpha )来实现复杂形状的方式也应用于火焰般的半透明效果,开发者用透明通道( alpha )来表现透明度等级。

在Ada Lovelace之前,开发人员将此类型的内容集成到射线中,并将其标记为不透明场景进行跟踪。 例如,当叶子受到射线照射时,着色器会调用正确的相交方法,以便可以轻松地表示光线是否命中。 这里发生了问题。 光线扭曲会导致线程效率低下,因为对于不透明的对象,单个光线查询需要实现多个着色器调用,从而导致其他光线跟踪进程立即丢失。 在第三代RT Core中添加“显微贴图透明度引擎”( Opacity Micro-Map,OMM )时,会为每个显微三角形添加一个不透明状态,RT Core将分析光与不透明三角形的交点。 具体来说,一个重心坐标( Barycentric Coordinates )交点处理对应的微小三角形的透明状态,如果不透明则记录命中并返回,如果透明则忽略交叉进行下一次搜索,如果未知则将控制权返回给SM,着色器编程方式OMM引擎用于评估三角形网格中的射线/三角形相交测试。 网格大小为1到1600万个,每个微三角形占用一个或两个位。 具体的图像说明请参照下图。 您可以看到OMM将大幅减少着色器的工作内容。 根据NVIDIA的介绍,在执行透明度导线测量的APP场景中,导线测量性能将直接加倍。 此外,性能提高幅度取决于使用情况,投影到透明度导线几何体的阴影光线通常会获得收益。

微网格显示引擎( DMM )的几何复杂性随着时代的变化而不断增加。 随着光线跟踪开始适应更复杂的环境,跟踪需求增加了100倍,这意味着BVH构建时间和显存也将增加100倍,显然这是不可能的。 此时,Ada Lovelace引入了微电网置换引擎( DMM )。 DMM的主要目的是在BVH加速期间降低存储占用和传输成本。 DMM利用几何结构化表示利用空间相干性实现紧凑性,加速LOD(levelofdetail,LOD )和轻量级渲染。 在光线跟踪期间,DMM可以有效地遍历BVH。 光栅化时,可以通过DMM使用适当的网格着色器等。 通过下图的比较可以看出,DMM将图像中不同的细节分成不同密度的微网格来处理,红色密度越高细节越复杂。 相反,低密度的微网格区域有助于节省着色器的资源。

在DMM中,每个微网格由基础三角形和替换图组成。 DMM根据需要生成定义中的微三角形,分析微网格的交点,使用高密度网格表示高分辨率对象,将位移幅度压缩为基础三角形的置换图。 最后直接根据重心坐标寻找微小顶点的位移位置。 这样的处理方法是BVH节约更多的资源,使用更少的网格完成相同几何图形的创建。

另一方面,DMM目前已运到adobe和部分Xbox游戏工作室进行测试。 通过比较可以看出,在DMM中创建相同的几何图形可以加快创建速度并减小体积,从而有效地节省更多资源。

正如我们在共享资源( ser )之前提到的,无论RT Core功能多么强大,它都无法满足日益复杂的工作负载需求。 尤其是在一个场景中遇到反射、二次反射、折射、阴影等随机路径跟踪算法时,可能会将大量的运算资源放在不重要的路径跟踪上,反而会降低主体的渲染效率。 通常,处理这种情况有两种手段。 一个是直接执行发散,不同的线程使用不同的着色器。 相反,着色器中的代码路径和数据扩散直接访问线程难以合并的缓存资源。 但是,在这两种情况下,如果光线追踪数变多,就会存在有效分配不均匀的问题,在这种情况下有必要引入调度机构。 在Ada Lovelace中引入的这种技术称为着色器执行重新排序( ser ),可以立即重新排序着色工作以提高效率和数据本地化其实SER并不是新技术,已经研究开发了多年。 Ada Lovelace的独特之处在于,它在设计硬件时考虑到了SER对内存系统的优化,以及更高效的线程排序工作。

SER完全由一个API中的APP应用程序控制,因此开发人员可以直接调用它来根据工作权重进行搜索和排序。 SER还提供了一种围绕光线跟踪着色器的调用构建渲染器的简单方法。 本质上,SER是Direct API继承的一部分,NVIDIA利用SER的硬件支持和微软或其他公司的标准图形扩展API支持来实现良好的效果。 以下图中猫雕像的光线跟踪为例,光线从左到右入射,线程将主光线射入场景后,击中同一物体的主光线放置在同一着色器程序中时,执行效率会变得高效而有序。 但是,当物体发生折射、漫反射时,产生的二次反射开始朝向不同的地方,执行会变得混乱无序。 这个时候需要SER介入。 SER通过区分反射、间接照明、透明效果等二次光线并进行排序,将重点分配到更重要的部分,可以提高整体的光线跟踪着色效率。

据NVIDIA介绍,光线跟踪着色器可以将发散执行(如路径跟踪)的性能提高多达两倍,而在《赛博朋克2077》性能模式下,仅SER就将总体帧速率提高了44%。 DSS3)对于游戏和创意内容的原始图像处理,神经图形的引入是GPU、顶点着色器、CUDA之后的重要里程碑。 目前,游戏和内容创作领域应用最多的功能是深度学习过采样( Deep Learning Super Sampling,DLSS )。 在过去的四年里,NVIDIA的研究小组一直在寻找利用DLSS改善游戏体验,并在后摩尔定律时代也能保持性能高速增长的方法。 DLSS 2.X进化为DLSS 3就是一个很好的例子。 DLSS 3以第四代Tensor Core为前提运行,第四代Tensor Core的FP16、BF16、TF32、INT8和INT4性能比前几代产品提高了两倍以上,适用于商用Hopper GPU架构由于在AD102 GPU中添加了SM处理器,一个SM包含四个第四代Tensor Core的数量也自然增加,最终AI计算性能得到了大幅提高。 回到DLSS吧。 DLSS的本质是卷积编码器,在DLSS 2.X时代,通过AI模型训练分析当前帧和过去帧以及几何运动向量,通过深度学习算法将一帧的低分辨率提高到高分辨率,对游戏帧特别是在2K、4K分辨率以上的游戏画面中更为明显。

但是,这还不够。 在DLSS 3中,NVIDIA团队使用光流加速器( Optical Flow Acceleration, 找到了OFA )和DLSS相结合的方法,将编码器卷积的输入源扩展到几个部分,分别是前一帧和当前帧、光流加速器产生的光流、光流同时获取四个源后,DLSS将新渲染的帧与前一帧进行比较,并考虑运动向量和光流信息以了解场景如何变化,从而在两者之间生成全新的高质量帧以提高游戏速度这意味着AI生成帧完全由AI计算,而不需要占用GPU渲染资源。

DLSS 3也不是传统的单一技术,实际上是软件和硬件合作的集合。 在软件级别,DLSS 3将使用AI超分辨率生成单元和AI生成帧,并参与到NVIDIA Reflex的支持中。 在硬件级别,DLSS 3应在第四代Tensor Core上运行,并使用改进的光流加速器来辅助DLSS 3像素级别的测量场景。 最后,云NVIDIA超级计算机正在寻找提高高质量图像的方法。 这六种软硬件相结合,最终实现了DLSS 3的高质量表达。

事实上,光流加速器并不是由Ada Lovelace架构独占的,Turing、Ampere架构中已经包含了光流加速器,独立于CUDA Core,提高了视频帧率就在Tensor Core应用于消费者产品的前一年,NVIDIA已经在商用Volta架构上推出了Tensor Core,随后又推出了神经图形加速NGX API。 NGX的一个功能是利用AI Slow-Mo人工智能慢镜,为现有视频插入帧生成平滑、无失真的慢镜,该功能也随着OpticalFlow

然而,传统的光流加速器无法从像素级捕获画面中粒子、光的反射、阴影和游戏引擎中照明的运动矢量信息,后处理光线跟踪效果非常困难。 光线跟踪是瞬息万变的,因此缺少相同类型的运动向量参考。 的简单时间抗锯齿算法只会混合前一帧中的像素和当前帧中的像素,从而导致屏幕重影、纸箱和模糊。 例如,在街道上行驶的摩托车的阴影是可预测的,并且难以被有效地处理。 通过将新的光流加速器与DLSS 3结合使用,Ada Lovelace可以计算场景中所有像素如何从一个像素移动到另一个像素。 这包括光流信息,如阴影、光反射和粒子。 此外,通过神经网络分析,分析前一帧和当前帧,最终获得高清晰自然的效果。

DSS3与光流加速器结合使用,提供了一种远离GPU渲染并重建高分辨率的方法,从而大大减少了GPU渲染的部分。 例如,对于两帧,DLSS 3负责第一帧的所有3/4工作和第二帧的工作,实际上GPU只需要完成其中1/8的渲染,从而节省了大量的计算资源。

这意味着DLSS 3可以解决很多问题,例如进一步减轻CPU的负担。 例如《微软飞行模拟器》这样的CPU密集型游戏场景,CPU需要逐帧进行模型调用,最终GPU空闲,等CPU调用完成后再进行下一次渲染操作。 在DLSS 3,GPU可以不通过CPU直接在AI神经网络生成新的帧,可以跳过CPU模型调用的过程,将帧速率直接加倍。

同样,当DLSS 3与NVIDIA Reflex配合使用时,系统响应速度也会进一步降低。 生成更多的帧后,Reflex可以通过抓住关键帧并跳过渲染队列来减少系统延迟。 据NVIDIA称,DLSS 3最多可以将系统延迟降低两倍。

为了能够将DLSS 3快速部署到游戏和APP应用程序,NVIDIA完成了Streamline SDK与DLSS 3的集成。 它包括AI超分辨率、AI帧生成和NVIDIA Reflex组件。 由于Ada Lovelace与Turing、Ampere的不同,DLSS 2.X和DLSS 3将暂时共存,但不会增加开发工作量。 DSS会根据硬件支持情况启动相应的功能。 例如,虽然AI帧生成由GeForce RTX 40系列独占,但所有GeForce RTX系列都可以使用以前的AI超分辨率,NVIDIA Reflex将启用GeForce GTX 900系列及更高版本的GPU。 基本上,DLSS 3是游戏体验最重要的三个方面,即流畅度、响应速度、画质保证了更高的质量,GeForce RTX 40系列成为了提高游戏体验的重要功能。

AV1双编解码器:直播变得简单的编解码器也是GPU升级的重要一环,尤其是在为新格式提供硬件编解码器时,性能的提高明显,软件编解码器消耗的大量资源Ada Lovelace首次添加了AV1双编码器。 这是自Ampere体系结构添加到AV1解码器以来的又一次发展。 AV1代码是英特尔、微软、亚马逊、谷歌、NETFlix等领先企业基于互联网需求编写的新一代视频代码格式,开放免费。 其特点是具有相同的文件大小和更高的图像质量,或者具有相同分辨率的图像质量和更小的大小。 与GeForce RTX 30系列相比,GeForce RTX 40系列的AV1编码器比H.264编码器效率40%。 这意味着AV1编码器可以利用现阶段可播放1080p流媒体视频的带宽,实现1440p以上的画质。 例如,假设在占用相同带宽的情况下,哔哩哔哩可以轻松播放2K或4K视频,而播放4K带宽也可以播放更高分辨率的内容。

AV1编码器在运算性能上对GPU也有更高的要求,需要进一步利用运动向量来改善视频压缩性能,支持8K分辨率捕获,对显存的要求也非常高。 NVIDIA计划为12GB或更大的GeForce RTX 40系列GPU提供AV1双编码功能。 这与将屏幕分成两部分,使用两个AV1编码器相同,效率提高了一倍,可以进行8K 60FPS的专业视频编辑。 同时处理4个4K 60FPS的视频,在一台电脑上多路复用4K画质60FPS的输出等,实现以前无法想象的游戏。

在软件支持方面,NVIDIA首先与DaVinci Resolve、Adobe Premiere Pro插件Voukoder和剪辑合作,并在GeForce RTX 40系列上市后同步上市。 Broadcast变得更智能,最后是播音员更感兴趣的Broadcast。 自2020年Broadcast APP发布以来,NVIDIA工程师团队开始着手推进Broadcast SDK,将broadcast功能融入到更多的直播APP中,发挥GPU的更多价值。 目前,主流APP包括OBS Studio、罗技G Hub等。 新的Broadcast SDK功能主要提高了虚拟背景性能、表情模拟和眼神交流。 其中,虚拟背景性能的提高是利用时序网络信息对画面进行高质量的分割,从而更好地区分人与物体,使表面虚拟化背景中出现不自然的异物。 序列网络相当于动态网络和时间戳的组合。 也就是说,网络上的每个节点在编程处理的同时加上时间戳,可以使信息之间保持一致性,便于程序判断。 表情仿真是增强现实工具包的新功能,能够将播音员的表情很好地传达到数字化虚拟人物的脸上,使虚拟人物的表情更加真实,无疑是VTuber的最爱。 事实上,NVIDIA确实做了。 他们将与顶级流媒体APP之一的VTube Studio合作,同步更新10月份的支持。 眼神很明白。 通常,我们的眼球看的不是屏幕上或侧面的摄像机,而是屏幕。 因此,我们的眼球在视频中不会正对着屏幕,而是与观众交流。 眼神交流可以自然纠正这个问题,包括正确识别眨眼、消除看提词器时产生的眼球运动等。

上述Broadcast SDK的所有功能将立即实现在外围硬件中。 目前,包括低技术、海盗船Elgato在内的强化效果支持已经得到确认,软件更新将这些品牌的摄像头与GeForce RTX显卡相结合,可以免费获得对应的智能功能。 最后,过程和技术的双重进步表明,GeForce RTX 4090背后的Ada Lovelace架构实际上是将过程技术、硬件和软件技术结合的双重提高。 包括加入了第三代RT Core的新引擎在内,引入着色器执行排序支持,第四代Tensor Core配合光流加速器实现DLSS 3的AI帧生成。 通过AV1双编码器提高高分辨率视频处理性能和Broadcast SDK更智能的性能,展示了GeForce RTX 4090、Ada Lovelace架构的先进性。 当然,这只是个开始。 GeForce RTX 4090评测的推出,让我们更直观地感受到新的GPU在游戏、直播、视频编辑、专业软件内容创作等方面有了质的提升,黄氏定律取代了摩尔定律所有改进假设都基于对GeForce RTX 40系列的强大性能支持。

个人中心
今日签到
有新私信 私信列表
搜索