环球速看:不惜堆料的旗舰“芯”王,索泰 GeForce RTX 4090 PGF OC显卡评测

前言

试问大家,RTX 40系显卡中,谁的性能给你震撼一击?想必不少玩家都会选择大名鼎鼎的GeForce RTX 4090显卡。不过这张顶级显卡还可以再升级!最近笔者就收到了一张顶尖水准的RTX 4090显卡,各方面堪称极致,甚至突破功耗上限,为的就是给极客玩家带来更极致的体验。

熟悉索泰的玩家应该知道,索泰一直有个PGF系列,它是索泰显卡中最顶级的存在,不过这个系列在RTX 40系显卡中还没有诞生新成员。今天它来了!一发布就是天花板级别的索泰GeForce RTX 4090 PGF OC显卡,无论是外观颜值,还是内在用料,它都是当之无愧的非公卡皇,我们也在第一时间上手了这张性能怪兽,下面一起看看它有怎样的恐怖表现~


(相关资料图)

下文“索泰GeForce RTX 4090 PGF OC”简称为“索泰RTX 4090 PGF OC”

规格对比

开始看这张顶级卡皇前,先给它来个详细的身份识别,这张索泰RTX 4090 PGF OC用上了AD102-301核心,相比原本的RTX 4090,应该是做了一些优化。芯片面积还是熟悉的608mm2,当然啦,也因为用的是TSMC 4N工艺,因此小小的核心内塞下了763亿个晶体管。至于它与公版RTX 4090的区别还是在于功耗和频率的设定上。全新推出的索泰RTX 4090 PGF OC虽然默认功耗还是450W,但它可以在此基础上上调17%,也就是说600W不成问题。

并且BOOST频率上也有加成,公版的RTX 4090为2520MHz,而索泰RTX 4090 PGF OC的BOOST频率能够去到夸张的2625MHz,足足高了有105MHz!再聊聊它的这颗AD102核心,我们也是总结了目前40系显卡的所有核心,AD102核心可以称得上是地表最强的游戏显卡核心了,384bit位宽、144个SM、96MB的L2缓存……,每一项都在告诉你,它就是最Top的存在。

不过我们从图上的规格表还是可以发现,目前GeForce RTX 4090显卡中配备的AD102-300或AD102-301核心其实并非完整的AD102核心。下图展示的为完整的AD102核心,它应该包括了12 个GPC (图形处理集群)、72 个TPC (纹理处理集群)、144 个SM (流式多处理器) 和⼀个带有 12 个 32Bit显存控制器的 384 Bit显存位宽。这也证明了完整的AD102核心是留给未来可能推出的RTX 4090 Ti显卡的。

再来看下面的GeForce RTX 4090架构图,和完整版本的AD102核心对比起来就很容易看出差别。首先,GeForce RTX 4090核心代号为AD102-300或AD102-301,其拥有9个完整规格的GPC (图形处理集群,每个内建6个TPC),与2个非完整的GPC (图形处理集群,每个内建5个TPC),共组成了64个TPC ,SM单元为128个,相比完整版少了16个。至于显存位宽老黄还是手下留情了,保留了完整的384Bit。

外观赏析:索泰 GeForce RTX 4090 PGF OC

见过不少索泰的显卡包装盒,唯独索泰RTX 4090 PGF OC的包装盒让我眼前一亮。大面积的线条与图形使用和这次的PGF系列设计不谋而合,彰显了“less is more”的核心主张,给玩家丰富的意象空间。

拆开包装盒,索泰RTX 4090 PGF OC尽显眼底,不得不说它的外观设计颠覆了我的想象。过往的PGF系列更多采用黑色色调,外观上都是硬核机甲风。这回的索泰RTX 4090 PGF OC可以说是大刀阔斧的改变,圆润的外壳设计多了许多流线型的柔美,为显卡注入了流动与韵律,打破使用尖锐线条勾勒显卡外观的传统。

索泰RTX 4090 PGF OC顶级的不止在它的外观设计,体积方面也是Top的存在,足足有2.4kg重,这就是一块有着超强性能的“板砖”

因此为了应对这个重量级的显卡,索泰也在包装盒内附赠了全金属的显卡支架,既美观又能杜绝显卡变形,给予显卡有效保护。少不了的还有电源转接线与RGB线,甚至连说明书都专门做了收纳,细节拉满。

视角回到显卡身上,整张显卡以白色为主打色,中间有黑色的缎带贯穿始终,不过与黑色的风扇恰如其分,黑白撞色设计在视觉效果上既时尚前卫,又带来了一种沉静之感与中和之意,静谧而平衡,同时也暗藏了一丝丝电竞硬核风格,设计相当超前。

细看正面,圆润的外壳下是三把11cm的巨大散热风扇,它们采用双滚珠轴承设计,并且运用了空气动力学原理,增加了风扇厚度,加深风扇外罩,这有利于风流集中,大幅提升散热效率。中间的风扇还机智的采用反向旋转,能够有效减少乱流、降低噪音。

每把风扇的扇叶也有小设计,仔细看可以看到每一片扇叶上都有鳞状仿生条纹,官方称其为盾鳞2.0高压扇叶,扇叶的曲率也有改善,这些小改动可以提高风扇的进风量、风压与风流,让冷空气吹透整个散热鳍片,帮助显卡快速降温。

显卡背面的设计同样惊艳,首先映入眼帘的就是巨型的”PGF”标志,代表了速度、力量和科技三重含义。旁边还有专门的PGF Logo信仰灯点缀,与白色的金属背板结合,颜值拉满。

虽然金属背板设计会给显卡增重,这是因为索泰增加了合金加固骨骼结构部件,但它有利于巩固显卡、不易变型,而且还可以提升散热效能,加上背板末端设有开孔设计,有效加强风扇气流。

索泰的显卡少不了的就是辨识度,顶部是我们熟悉的ZOTAC信仰Logo与NVIDIA显卡特有的GEFORCE RTX标识。

显卡供电用的是全新的12VHPWR供电接口,使用一根12VHPWR的电源线就可达到供电需求。如果你没有用上最新的电源,还可以使用随机附赠的4 x 8Pin转12Pin的电源线转接使用。

转头看看显卡底部,一排排散热鳍片已经快要突出外壳了,可以预见这款显卡的散热相当出色。

显卡底部还可以看到显卡的PCIe金手指,标准的PCIe 4.0 x 16速率,它可以为显卡提供更快的传输速度。

视频输出接口方面配备了3个DP1.4a和1个HDMI2.1,支持4屏显示或最高8K@60Hz的超清输出。

换个角度,再看看它的厚度,74mm,这已经超越了4槽了,果然高端的显卡都有非同寻常的重量。381mm的长度对不少机箱也是一个考验,ITX机箱基本就不要想着能装进它了,大机箱才是它的归宿。

RGB灯效:索泰 GeForce RTX 4090 PGF OC

高贵冷艳的外观大家都看过了,那下面就来点不一样的,相信没有哪个玩家能够拒绝RGB的诱惑吧~

显卡通电后,顶部的索泰ZOTAC信仰Logo灯率先亮起,多彩的变化加上醒目的设计,辨识度算是拉满了。

不过要说这最吸睛的还要看正面的灯带,在三把散热风扇的四周,索泰安排了一圈的RGB灯带,显卡点亮时犹如律动的音符,远望就好像与风扇起舞。在边缘处更是嵌入了一条绵延不绝的灯带,光彩动人。

索泰可不光在正面安排了RGB,在背部也藏了RGB设计,独有的PGF Logo信仰灯与顶部的ZOTAC Logo信仰灯相互呼应,共同点缀着这张高贵的卡皇。

每一处角落都不能放过,就连你很少能够见到的显卡侧边也塞下了RGB,支持1600万色ARGB及多种灯效模式。当你在机箱正面看去,格外靓丽。

玩灯那总要可以自定义吧,索泰的FireStorm软件就集成了这个功能,玩家可以用它自定义RGB,在电源接口的旁边还有OPEN ARGB接口,通过附赠的线即可实现整机灯效同步,实现千变万化的灯效设计,打造专属于你的靓丽显卡。

纯白的外观配上艳丽的灯光效果,相信不少玩家看完都已经芳心暗许了吧,再来个白色的机箱打造白色主题装机,又是一件完美的艺术品。

显卡拆解:索泰 GeForce RTX 4090 PGF OC

索泰RTX 4090 PGF OC虽然看起来很厚实,不过拆解起来还是相当轻松的,传统的“三明治”结构。卸下金属背板上的螺丝后就可以分离整个散热系统与PCB板。

整张显卡的PCB板就突出“高级”二字,黑色的色调加上合理规整的设计,一眼就能看出它出自大厂之手。正面是各式各样的供电芯片、电感、核心以及显存,密密麻麻铺满了整个PCB板。

再看看它的背部,强迫症看了都直呼舒服,并且索泰还在核心背部电容位置使用了四个POSCAP(导电聚合物钽电容)代替四组MLCC(一组10个MLCC),整体电气性能更强。

终于轮到我们的主角了,这颗AD102-301-A1核心四平八稳的镶嵌在PCB的正中央。你以为它只是小小的一颗芯片,其实它得益于TSMC 4N工艺,在里面塞下了763亿个晶体管,这个数量足足是RTX 3090 Ti的2.7倍!

核心的周边则是12颗GDDR6X显存,来自美光科技,型号为2RU47 D8BZC,单颗显存容量2GB,12颗组成24GB超大显存。并且这几颗显存的速率可是满血的,显存速率为21Gbps。

俯瞰整张PCB,你就可以发现,它的供电规模也堪称豪华,采用了SEP 2.0供电系统。供电总相数来到了夸张的28相,其中24相为核心供电,4相为显存供电,并且供电集成度相高,每相均采用了固态电容做输入输出,还有全封闭电感坐镇。

左侧PCB供电

右侧PCB供电

无论是核心供电还是显存供电,索泰均采用了统一规格的DrMos芯片,可见是下了血本了,芯片来自万国半导体,封装型号为BLN0与BLN3,实际应为AOS的AOZ5311NQI与AOZ5311NQI-03,二者持续输出电流均为55A。

核心供电DrMos

显存供电DrMos

PWM主控则位于PCB的背部,型号分别是:uP9512R、uP9512U以及uS5650Q。其中uP9512R与uP9512U共同管理核心供电,可以做精细化的供电管理。

uP9512R

uP9512U

而面积最小的uS5650Q则担任电压/电流/功耗监控的工作。

供电规模的强悍还需要有个接入口,索泰RTX 4090 PGF OC采用了最新的12VHPWR接口,单口供电能力可达600W,带动这颗“核弹”完全没有问题。

不过供电不止12VHPWR接口一处,PCIe也是供电之一,索泰RTX 4090 PGF OC的PCIe接口为标准的PCIe 4.0 x16,值得注意的是使用前一定要在主板打开Resizable BAR功能,这张显卡的性能才能完全释放。

当然,上面提及芯片,PCB上还有众多不可或缺的芯片,例如在核心周围还能看到两颗BIOS控制芯片,型号为IS25WP016,分别控制这款显卡的默认BIOS与极速BIOS。

我们继续拆解它的散热系统,可以看到索泰RTX 4090 PGF OC承袭了索泰“堆料王”的品质,一眼就见到了超大面积的VC均热板,它能够迅速吸收GPU产生的热量,并将热量迅速均匀传递到热管,让AD102核心时刻保持冷静。

在VC均热板的四周是一片又一片定制的高K导热垫,它们覆盖了显存、电感、MOS感等发热大户,让其与散热模组之间无缝连接,散热的同时还能减少啸叫几率。中间的核心区域则是厚厚的硅脂,给核心专供,如此高规格的配置,为的就是让这款顶级显卡能够全力释放性能。

不仅仅正面的超大VC均热板有散热,金属背板上同样安排了特设高K导热垫,配合金属导热性强的特性,索泰RTX 4090 PGF OC的散热规格足以用恐怖来形容。

而中间的散热器才是散热系统中体积最大的一个,散热器本体为两段式散热模块,左右两侧均有全覆盖高密度镀镍鳍片,搭配全新对流穿透散热设计,能够大大提升显卡散热效能。

散热鳍片下隐藏着9根冰脉热管,全部采用精密的无损内嵌焊接工艺,热管设计也经过全面升级,增加热管壁厚度和内壁脉络状导液沟槽,还用上了更高导热系数的介质,为的就是给AD102核心满血释放的舞台。

有了不错的热管,还需要风力十足的散热风扇快速带离热量,正面的三个11cm的散热风扇便是最大的功臣。风扇采用双滚珠轴承,盾鳞2.0高压扇叶多达11片,厚度还增加了不少,因此能带来更强的风压和风流,实现无死角风流覆盖,配合显卡内部散热部件拥有更加出色的散热效果。

最后来个全家福,索泰RTX 4090 PGF OC的内部构造就像富丽堂皇的皇宫,应有尽有。旗舰级的AD102核心、旗舰级的散热规格才对得起旗舰PGF的定位。

测试平台介绍

索泰RTX 4090 PGF OC的里里外外大家都见证过了,下面就该真刀真枪的上机测试了。还是编辑部的天花板配置,CPU用的是最新的Intel Core i9-13900KS,华硕的Z790 Hero主板搭配2根16GB的金士顿DDR5-6000高频内存。

有了强悍的硬件,显示设备也不能拖后腿,显示器我们采用了爱攻&保时捷联名PD32M电竞显示器,其搭载了目前顶级的4K 144Hz面板,可以完美体验到RTX 4090带来的丝滑4K 144Hz游戏体验。

理论性能测试

国际惯例,跑分前先给这张索泰RTX 4090 PGF OC显卡来个全身体检,从图中可以看到这款显卡的基准频率为2235MHz,Boost频率为2625MHz,远远高于公版FE的2520MHz,足足105MHz的提升,这也是它为什么被索泰称为旗舰之作的原因之一。

再看看它的功耗与温度墙限定,不得不说高端显卡就是非同凡响,索泰RTX 4090 PGF OC的默认TGP设定为450W,不过这是普通的RTX 4090的极限,不是索泰RTX 4090 PGF OC的极限,它支持解锁功耗,最大TGP可至530W,温度墙也是给到了88℃,看来超频测试是少不了了。

先看看索泰RTX 4090 PGF OC的基准性能吧,这里选用3DMark作为测试工具,从测试结果中可以看出,索泰RTX 4090 PGF OC对RTX 3090 Ti就是碾压,在DX 11为基准的Fire Strike系列测试中,67806的超高成绩比后者高出仅1W多分,性能提升幅度达到了近20%,而在DX 12为基准的Time Spy中,38122的超高分数同样强过RTX 3090 Ti的22379分。

不过要说提升最大的就得属光追与老黄引以为傲的DLSS了,在Port Royal测试中,索泰RTX 4090 PGF OC领先RTX 3090 Ti就有23%以上!而在DLSS方面,这张显卡的提升堪称恐怖,2K下开关DLSS可以有超百帧的差距,更离谱的是8K下,仅开启DLSS 2也能做到60 FPS流畅运行。

而在其他理论性能测试中,索泰RTX 4090 PGF OC更是王者风范,例如在GPGPU理论中,拥有Ada Lovalace架构的RTX 40系列显卡在算力上也有出色的性能表现,尤其是单精度和双精度浮点运算上,提升幅度是最大的。索泰RTX 4090 PGF OC整体性能相比RTX 3090 Ti的性能提升足足有92%左右,不少项目更是2倍甚至3倍的飞跃,着实让笔者越测越兴奋。

游戏性能测试

再来就是玩家最期待的游戏性能测试了,想必买这张卡的玩家应该都不缺4K显示器吧,这里我们就着重说说它的4K以及8K表现了。不过还是给大家看看它在1080P跟2K的表现,索泰RTX 4090 PGF OC就是乱杀,大部分游戏都在200 FPS以上,这已经不是入门电竞的水平了,而是专业电竞的表现。

重点来了~4K分辨率才是这款显卡的主战场,先挑个优化最差的《赛博朋克2077》试试手,可以看到索泰RTX 4090 PGF OC显卡在DLSS 2下,游戏帧数已经有77 FPS,你可能觉得不多,那看看隔壁的RTX 3090 Ti,48 FPS的表现真的不够看,当然你别忘了它还有DLSS 3加持,有“大力水手”的加成,帧数还能有不小的飞跃。

8K在以前只能说是幻想,现在它已经成为了现实!在8K游戏测试方面,索泰RTX 4090 PGF OC显卡能够将大部分游戏跑到60 FPS以上,这已经远远超乎笔者的想象,而像一些优化好的游戏,例如《极限竞速:地平线5》甚至能有85 FPS左右的表现,这还只是DLSS 2的表现,相信加上DLSS 3,性能应该更为强悍。

总的来说,索泰RTX 4090 PGF OC可谓是不负众望,1080P、2K对它犹如砍瓜切菜般简单,4K分辨率下,即使只开DLSS 2,依旧有不错的体验,如果你玩的游戏有DLSS 3,那体验更是质的飞跃,至于8K嘛,目前的体验只能说良好,基本可玩,后续如果游戏优化得当,8K电竞应该指日可待。

DLSS 3性能实测

提到RTX 40系显卡就不得不提DLSS 3这个黑科技了,它无疑是这代显卡升级的重点,相比DLSS 2,DLSS 3不仅可以实现画质于帧数的双向提升,还新增帧生成功能,实现游戏帧数翻倍,老黄在发布会上更是直言“DLSS 3让游戏性能翻倍”!

3DMark DLSS 3理论性能测试

还是老样子,先验一下DLSS 3的实际理论性能,实测下来有DLSS 3的加持下,索泰RTX 4090 PGF OC显卡相比RTX 3090 Ti实现了性能的翻倍,在4K分辨率下,不开DLSS 3仅能勉强维持在60 FPS附近,一旦开启DLSS 3后,性能直接提升三倍,180+FPS的惊人表现直接超出RTX 3090 Ti 100多FPS。

8K也是从容不迫,不开启任何DLSS时,强如RTX 4090也只有13 FPS,不过上面我们也看到了索泰RTX 4090 PGF OC在DLSS 2下,8K已经可以跑60 FPS了,如果用DLSS 3,拿直接逼近百帧!

游戏实测

光有理论测试,没有实际游戏怎么行,我们这里就用显卡杀手《赛博朋克2077》来“折磨”一下这张顶级卡皇,特别是现在的《赛博朋克2077》还有负载压力更大的全景光追模式,这又是一项挑战。

首先我们先看看在超级光追下的表现,DLSS 2下,索泰RTX 4090 PGF OC的表现已经相当不错了,4K分辨率可以跑到111 FPS,这已经能够满足4K@120Hz高刷电竞了;换到DLSS 3我们再测一次,144 FPS的表现完美诠释了它的旗舰定位,再看看2K或1080P,超200+FPS的成绩更是唬人。

换装上压力更大的全景光追后,我们先在DLSS 2下进行体验,不得不说这个级别的光追压力确实大,强如索泰RTX 4090 PGF OC也只能勉强60 FPS运行。至于2K或1080P的表现就会好很多,不过这是一张40系显卡,还有DLSS 3这个黑科技,在开了DLSS 3后,索泰RTX 4090 PGF OC在4K分辨率下也能有105 FPS的出色表现,虽然比超级光追模式下低了一些,不过全景光追的画面真实度值得你体验!

另外,眼尖的小伙伴应该也发现了,开启DLSS 3后,游戏的1% Low FPS均有不同程度的提升,幅度在15-20 FPS间浮动,别小看这十几帧的差距,在游戏中,1% Low FPS越高,你的游戏体验就会更丝滑,遇到卡顿的情况就会减少,这也是DLSS 3的一大优势。

让我们再看看另一款支持DLSS 3的游戏《F1 22》,索泰RTX 4090 PGF OC依旧强势,在4K画质下开启全高特效,有了DLSS 3的加成,索泰RTX 4090 PGF OC能够跑到163帧,若只使用DLSS 2,则帧数只有85帧左右,相当于DLSS 3这个黑科技给游戏带来了50%的游戏性能提升,相当不错。

当然了,DLSS 3除了能够有效提升游戏帧数外,画质也是一等一的强,这里我们也截取了DLSS 3各个档位下的游戏实际画面,可以看到无论是哪个档次,游戏画质均没有明显影响,甚至因为DLSS 3是通过AI进行超分渲染,因此在文字等细节纹理上会比原生画质更加清晰。

DLSS 3-F1 22-DLSS-Balance

DLSS 3-F1 22-DLSS-Perfoemance

DLSS 3-F1 22-DLSS-Quality

DLSS 3-F1 22-DLSS-SuperPerfoemance

DLSS 3-F1 22-TAA

就拿F1 22内的场景来说,五个不同的档次,画质几乎没有区别,老黄的DLSS 3可以说是把RTX 40系显卡的游戏体验推到了更高的层级,远远强于上代的RTX 30系显卡。

Unreal Engine 5 Lyra DLSS3测试

最后我们还测试了利用Unreal Engine 5引擎打造的Lyra DEMO,此DEMO除了能够支持最新的DLSS3技术外,还带上了NVIDIA Reflex。笔者这里上传了两个图片给大家看看Lyra DEMO里的DLSS3开启与关闭的画质对比,游戏流畅度自然是DLSS3开启后提升较为明显的,达到192 FPS,而PCL延迟也进一步降低到了50ms的水平。

Unreal-Engine-5-Lyra-DLSS3-OFF

Unreal-Engine-5-Lyra-DLSS3-ON

更多测试

如果你觉得这些还不够过瘾,我们也安排了更多游戏的实测,1080P大家应该不用想也知道,这张卡就是爆杀,这里给大家展示2K、4K以及8K的成绩。

首先是2K分辨率下,开启DLSS 2的索泰RTX 4090 PGF OC相比起前代卡皇已经大幅领先了,一旦开启了DLSS 3,这张显卡仿佛脱缰的野马!2K下不少游戏有了300+的帧数表现,看来还是太小看这张索泰RTX 4090 PGF OC了,4K甚至8K才是它的战场。

提升分辨率至4K,索泰RTX 4090 PGF OC终于能够大展身手了,开关DLSS 2与DLSS 3,游戏帧数竟有30-40 FPS的差距,这还只是跟它自己比较。如果你用索泰RTX 4090 PGF OC与RTX 3090 Ti相比,那简直就是降维打击,超强的性能让它可以4K@144Hz畅玩3A大作。

视频内容创作性能测试

游戏表现可以说是相当的惊艳,那生产力创作上索泰RTX 4090 PGF OC又有怎样的惊喜!这里我们选择PugetBench、PCMark 10、Blender等多款常见的测试软件,来测试这款显卡在日常办公、视频内容生产、专业渲染等方面的性能表现。

首先是PCMark 10 Extended项目,索泰RTX 4090 PGF OC显卡在每个项目上都完成了超越,整体性能领先前代的RTX 3090 Ti达到了15%左右,不过根据我们前面的测试,领先幅度远不止于此,毕竟单是游戏中就是几十上百帧的差距。

而在视频内容创作上,索泰RTX 4090 PGF OC得益于更快的显存于更强的性能,跑Pugetbench的Pr项目确实比前代卡皇快了很多,有大约30%的性能提升。如果你用达芬奇进行测试,那索泰RTX 4090 PGF OC的优势会更加明显,毕竟AV1编码是30系显卡不曾拥有的技术,后续我们也会对这部分进行更详细的测试。

专业内容创作性能测试

既然是创作,那除了视频内容当然还有专业的渲染与工业软件,在N卡常用的Blender渲染软件中,索泰RTX 4090 PGF OC相比RTX 3090 Ti有97%的性能提升!你没有听错,就是翻倍的性能表现!RTX 40系的性能果然不让人失望。

同样出色的还有OC渲染器,索泰RTX 4090 PGF OC的表现真的是顶级的存在,性能也提升了95%以上,想要提升专业性能的用户不妨考虑一下这张索泰RTX 4090 PGF OC,顶级的显卡顶级的体验,当然你也将获得顶级的效率。

像SPEX的专业领域我们也没有放过,当然我们的索泰RTX 4090 PGF OC没有辜负我们的期待,65%的性能提升充满惊喜。这也得益于全新架构的加持,才让这款显卡能够实现如此“变态”的性能提升。

NVIDIA双编码器测试

上面我们也提到了RTX 40系列还藏有一项黑科技可以加速你的视频内容创作,其实就是它的第八代NVIDIA双编码器,它支持时下热门的AV1编码,作为下一代主流的视频编码技术有着自己独特的优势,更快的编码速度和更高质量的流媒体传输性能,让越来越多的剪辑软件和视频网站青睐于它,像我们熟悉的达芬奇、剪映、B站等已经支持AV1编解码,未来AV1将会成为一个新趋势。

先看看大家关心的速度,我们选用NVIDIA提供的样片进行导出测试,有第八代NVENC双编码器加持的索泰RTX 4090 PGF OC确实能带来更好的性能表现,同样是H.265视频输出,它的效率就要比上代显卡快多了;若你是输出8K30的视频,这张天花板级别的RTX 4090只需要46秒就能完成了,相比之下隔壁的RTX 3090 Ti却要170秒,几乎是4倍的效率提升!

另外我们再来看看H.265格式与AV1格式下的画质区别,从肉眼来看,其实画质几乎完全一样,这样也意味着AV1可以用更小的空间占用量实现与H.265同等规格的画质表现,总的来说,无论是导出速度、空间占用还是画质表现,它都完胜H.265。

AI性能测试

AI是现在这个时代的浪潮,不到一年的时间里,AI已经席卷了各行各业,各式各样的AI工具接踵而至。而作为AI时代最大的赢家老黄在GTC上、在COMPUTEX 2023上都大谈AI,甚至说“现在就是AI的iPhone时刻”,甚至为了让大家感受AI的魅力,进一步推出了一系列AI产品与服务,震撼全场。

借着这个机会,我们也对索泰RTX 4090 PGF OC显卡进行AI运算能力测试,在使用达芬奇AI ACCELERATED MAGIC MASK测试时,同一项目下,架构革新后的索泰RTX 4090 PGF OC有着更快的渲染时间,原本RTX 3090 Ti需要几十秒才能完成的操作,现在仅用17秒!

要说测AI又怎么能够少得了生成式AI中最经典的Stable Diffusion AI画图呢,拥有24GB超大显存的索泰RTX 4090 PGF OC显卡可以说是这里的最强王者!选择NVIDIA提供的描述,生成50张768 x 768的图片,索泰RTX 4090 PGF OC以1分钟19张图的速度一骑绝尘,作为对比,上代的RTX 3090 Ti则是一分钟11张图,可见架构革新确实能够带来不小的性能提升,换用新的RTX 40系显卡也能让你在AI时代乘风破浪。

RTX VSR测试

AI的能力大家看完了,再给大家看个有意思的。素有视频版DLSS的RTX Video Super Resolution 视频超分辨率技术(RTX VSR)终于上线了。在RTX 4090上市那会儿,这项技术还没发布,现在刚好有索泰RTX 4090 PGF OC显卡,那就用这张显卡看看,顶级的性能加上超强的AI技术,究竟能不能将低分辨率的视频也提升到前所未有的效果。

首先开启RTX VSR需要你的显卡为30系或40系,在NVIDIA控制面板中找到视频图像设置,手动开启RTX Video enhancement即可启用RTX VSR技术,其中分为1-4档调节,数字越大质量越好。

实测环节,可以看到在开启RTX VSR技术之后,原视频里的人物线条由原本的模糊不清变得十分清晰锐利,甚至部分细节已经超越原生1080P了,并且低画质的视频也有不少噪点,在开启VSR 4档后,噪点几乎消失。

除此之外,由于是AI智能提升分辨率的缘故,字体在原生的480P视频中有些发虚,甚至字体边缘可以看到毛边,不过有了VSR的加持后,字体锐利可见,完全不输原生1080P的效果,不得不说VSR确实有点东西。

这里我们也给大家准备了对比视频,从视频里就可以看到VSR的效果之明显,最高级别的VSR 4跟原生480P相比就是一眼的区别,在开启RTX VSR技术后,部分图像质量有了显著提高,不仅锯齿和噪点几乎全部消失,颜色过渡也更为平滑,目前VSR能有这种表现堪称惊艳。

左:原生480P 中:VSR 4档 右:原生1080P

当然你除了在浏览器能够使用这项功能外,本地浏览器也能享受黑科技的魅力,VLC是目前首个支持RTX VSR技术的本地播放器,且能够支持多种视频格式播放,你硬盘里的老视频也能拥有清晰画质了!

我们将本地的360P画质视频进行RTX VSR 4档渲染,从画面上看,开启了VSR技术后,右侧的渲染视频确实比左侧原生的视频要清晰许多,并且肉眼可见噪点的减少,观感上要明显好于原生的360P视频。

如果你想知道本地VSR的效果,这里也有视频可以看到二者的差距,确实能够明显看出有VSR的加持后,不少细节重新清晰可见,对一些低分辨率视频确实有提升。

左:本地原生360P 右:VSR-4档

总的来说,索泰RTX 4090 PGF OC上的RTX VSR技术还是相当不错的,既有不错的观感,又有合适的功耗,有了这项全新的技术,将为玩家和视频观看者带来革命性的新体验!

超频潜力测试

可以解锁功耗的RTX 4090,那怎么能少得了超频呢,索泰RTX 4090 PGF OC显卡,无论是散热配置还是性能释放,都是顶级中的顶级。这里我们将使用索泰的FireStorm控制中心对显卡进行超频,这款软件不仅能够用于超频,还能轻松控制显卡BIOS、灯效调节、查看显卡状态等。

查看显卡信息

超频与BIOS切换

风扇转速调节

在解锁显卡的功耗限制与温度墙后,我们将GPU核心和GDDR6X显存同时超频,在FireStorm中将这款显卡的BOOST频率提升到2725MHz,相比默认状态拉高了100MHz,此时显卡依旧稳定运行,在3DMark的Time Spy测试中,显卡得分39099,比默认状态好出不少。

我们继续尝试,在FireStorm中我们将GPU核心频率提升50MHz,FireStorm中显示,这款GPU的Boost频率已经有2775MHz了。继续尝试Time Spy测试,索泰RTX 4090 PGF OC顺利完成,得分39325分,再度刷新记录。并且功耗稳定在480W左右,散热也维持在良好的水平,核心仅有60℃不到。

最后我们也是尝试了更高的频率,成功将索泰RTX 4090 PGF OC的GPU核心频率提升了190MHz,显存频率提升了1000MHz。在3DMark中这款显卡能够稳定运行在3075MHz下,要知道,这还只是在风冷状态下,如果是水冷,那它还能再高一些,此时Time Spy测试得分39975,仅差一步之遥就可冲上4W大关。并且相比默频状态的38122分提高近2000分,超频潜力可见一斑。

功耗与发热测试

超强的超频潜力,缘于索泰RTX 4090 PGF OC极致的散热配置,最后我们就来试试这款显卡的散热性能表现~

在使用Furmark烤机15分钟后,这款显卡的GPU温度稳定在65.7℃,这样的成绩比起上代的RTX 3090 Ti可以说是质的飞跃,如果跟其他RTX 4090比起来,那也是妥妥的第一梯队,可见其散热效率的确非常高。

除了核心,显卡内还有个发热大户——GDDR6X显存,不过从实际情况来看,显然是我多虑了,有了高系数的导热垫和直触均热板设计后,显存的温度仅仅只比核心高了一点点,66℃的表现,放在前代显卡中,那就是鹤立鸡群的存在,30系显卡看了都是无法企及的高度。

众所周知,这是一张功耗可以干到530W的旗舰显卡,那实际使用中,会不会功耗爆炸?这里我们还利用HWINFO64软件与FrameView软件双重记录多款显卡的功耗表现情况,从图中可以看到索泰RTX 4090 PGF OC的功耗控制相当出色,测试的多款软件与游戏中,功耗都维持在400W附近,功耗表现远低于上代的RTX 3090 Ti。

就看这个表现,你就说索泰RTX 4090 PGF OC牛不牛吧!用更低的功耗实现更强的性能,完全吊打上代卡皇,这才是顶级RTX 4090应有的表现。老黄的Ada Lovelace架构配合TSMC的4N工艺,40系的功耗比堪称逆天!

评测总结

测完索泰GeForce RTX 4090 PGF OC,只剩一句赞叹“顶级旗舰之所以顶级,是因为在各个方面都做到了顶尖水准”,用这句话形容这张显卡一点都不为过。而全新的Ada Lovelace架构、TSMC 4N制造工艺、DLSS 3、RTX VSR等黑科技也是悉数登场,给这张顶级的显卡又披上了强劲战甲,让它的性能达到了前所未有的高度。

在我们的实测过程中,就能感觉到索泰GeForce RTX 4090 PGF OC的不一般,无论是性能、颜值、还是配置都是当今最强的RTX 4090之一。单就游戏表现来说,它不仅能够满足你的4K高刷体验,甚至8K也有一战之力。散热更是一绝,超强的效能造就了极致的超频的潜力,不过28相豪华供电也功不可没,这都是它能够站在性能顶峰的强势资本。

再聊聊它的外观,这回的索泰GeForce RTX 4090 PGF OC可以说变了也可以说没变,变的是相比前代的PGF系列,采用了更前卫的设计理念,不变的是继承了AMP系列的设计风格,圆润的外观在这个棱角分明的时代,可谓是赚足了眼球,白色的机身设计更符合时下的潮流,颜值党看了都直呼过瘾。

总的来说,索泰GeForce RTX 4090 PGF OC显卡既是自家旗下的顶尖之作,也是目前的地表王者。如果你也想感受一下卡皇的威力,那它就是你的最佳选择。目前索泰GeForce RTX 4090 PGF OC已经上市,售价16999元,感兴趣的话可以去了解一下。

Ada Lovelace架构讲解

Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。

从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。

在讲述核心架构前,我们先了解几个关键词:GeForce RTX 4090、Ada Lovelace、TSMC 4N、608mm²、760亿个晶体管、2倍性能功耗比。

大家带着几个关键字来看上面的【显卡规格参数对比】表格,就可以更容易读懂上述表格了。最新一代的桌面显卡GeForce RTX 40系列均采用全新的Ada Lovelace架构核心, GeForce RTX 4090的核心是 AD102,目前Ada Lovelace架构核心中最为强大的,具有760亿个晶体管、16384个CUDA核心和24 GB高速美光GDDR6X显存。

得益于NVIDIA与台积电深度合作的TSMC 4N制程工艺,GeForce RTX 4090核心面积仅是608mm²(上代RTX 3090 Ti 628mm²),在更小的核心面积下却能塞下多达760亿个晶体管,比上一代的Ampere架构多出了约70%晶体管数量。

值得注意的是,制程工艺的提升不单能拥有更多的晶体管,其核心频率更是能跑得很高,GeForce RTX 4090 Boost频率就已经达到了2520MHz,这样在核心频率与高规格的双向保证下实现了比上代显卡高达2倍的性能功耗比。

如果你还是不太懂,这里笔者就逐一为了Ada Lovelace架构显卡的构成。

刚才我们已经说到,一个完整的Ada Lovelace架构AD102核心内部拥有12个GPC,而每个完整的GPC中包含了一个专用的Raster Engine(光栅化引擎),两组ROPs共16个ROP(光栅化处理单元),以及6个TPC与12个SM单元。

全新的SM流式多处理器

Ada Lovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores(张量核心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

过去的Turing架构INT32 计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。

再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForce RTX 4090拥有128个SM,16384个CUDA核心,那你也就应该明白达82.6 TFLOPS的着色器能力是如何实现的了,比上一代的RTX 3090 Ti显卡的40 TFLOPS,还真是提升了两倍有多。

另外缓存方面Ada Lovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,这样RTX 4090显卡中就实现了163MB L1/共享内存。其次核心的二级缓存进行进行了重新的设计,并且完整AD102核心是96MB二级缓存,而RTX 4090显卡拥有72MB二级缓存,也可能是因此Ada Lovelace架构核心对显存位宽的依赖性并不高。

技术讲解:第三代RT Cores与第四代Tensor Cores

以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上Ada Lovelace架构最大的提升还是在第三代 RT Cores与第四代 Tensor Cores身上。

第三代 RT Cores

RT Cores用于光线追踪加速,第三代 RT Cores 的有效光线追踪计算能力达到 191 TFLOPS,是上一代产品 2.8 倍。

在Ampere架构中,第二代RT Cores支持边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。

所以在第三代 RT Cores增加了两个重要硬件单元:Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,可以将 alpha 测试几何体的光线追踪速度提高2倍。

在传统光栅渲染中,开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染,例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。

而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态三角形。根据Alpha 通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。

Displaced Micro-Meshes Engine

如果说Opacity Micromap Engine加速的是面处理,那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示,在Ada Lovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RT Cores更低,效率也更高。

通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在Ada Lovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂 。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程,减少构建时间和存储成本。

同时Ada Lovelace架构SM中新增了着色器执行重排序(Shader Execution Reordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代 RT Cores与第四代 Tensor Cores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用 GPU 资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。

第四代 Tensor Cores

Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代 Tensor Cores 新增 FP8 引擎,具有高达 1.32 petaflops 的张量处理性能,超过上一代 的 5 倍。

技术讲解:DLSS 3

或者说第四代 Tensor Cores太硬核你不会知道是啥?提升意义在哪?但是Tensor Cores最经典的应用DLSS你肯定会知道,这一次Ada Lovelace架构支持NVIDIA最新的DLSS3技术。

之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。

在DLSS3中包含了三项技术:DLSS 帧生成、DLSS 超分辨率(也称为 DLSS 2)和 NVIDIA Reflex。你可以理解为DLSS3是在DLSS2的基础上,新增了DLSS 帧生成技术;而后两技术中,DLSS 超分辨率只需要GeForce RTX显卡都能使用上,NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。

想实现DLSS 帧生成可不简单,这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS 帧生成技术原理是:利用 AI 技术生成更多帧,以此提升性能。DLSS 会借助 GeForce RTX 40 系列 GPU 所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。

从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而Ada Lovelace架构的光流加速器升级到了第二代,其提供了高达300 TeraOPS (TOPS) ,比安培架构的初代光流加速器(Optical Flow Acceleration,OFA)快 2 倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行⽮量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。

另外,由于DLSS 帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

最后由于DLSS 3是建立在DLSS 2基础之上的,游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能,所以DLSS 3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。

阅读小亮点:NVIDIA Reflex

NVIDIA Reflex也是DLSS3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。

想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。

当GeForce RTX 40 系列显卡和 NVIDIA Reflex搭配上后,直接达到1440p分辨率360 FPS的体验,这着实是性能有点强劲了。

在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布,包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz,而最猛的是ASUS ROG Swift 360 Hz PG27AQN ,刷新率直接来到了360Hz。

但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p360Hz是很美好,但现实也是相当的骨感。

技术讲解:双NVIDIA编码器(NVENC)

GeForce RTX 40 系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265,还支持开放式视频编码格式 AV1。

而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinci Resolve、以及 Adobe Premiere Pro 较为流行的 Voukoder 插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。

不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1 编码器可将效率提高 40%,同时显卡的占用也更低。包括OBS Studio一一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容,这样我们做游戏录制也会变得更为轻松。

包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。

关键词: