NVIDIA GeForce 900系列,是輝達研發的圖形處理器產品系列,用於桌上型電腦平台和筆記型電腦平台。此代顯示核心將採用第二代Maxwell微架構(晶片代號將以『GM』開頭),以蘇格蘭理論物理學家詹姆斯·克拉克·麦克斯韦的名字命名。2010年,NVIDIA将此时代Maxwell核心的首發旗艦級產品命名為GeForce 900系列,分別為桌面平台的GTX 970、GTX 980、GTX 980 Ti、GTX TITAN X、GTX 950和GTX 960以及行動平台的GTX 950M GTX 960M GTX965M GTX 970M 和GTX 980M、GTX 980 [1][2]GeForce 800系列则全為使用在筆記型電腦OEM市場上的移动式顯示核心。
概觀
2010年9月NVIDIA宣布下一代顯示核心架構『Maxwell』。[3]首款基於『Maxwell』架構的消費級顯示核心的產品將於2014年早期發賣,是為GeForce GTX 750/750 Ti。[4]
第二代『Maxwell』介紹了幾種新技術: 動態超分辨力、第三代三角洲顏色壓縮和多圖元程式設計採樣、Nvidia VXGI(Real-Time-Voxel-Global Illumination) 和MFAA。[5]此外增加了HDMI 2.0支援。[6]
架構特性
GeForce GTX 980/970使用「GM204」核心,是Maxwell GPU架構的第二作。它们分别采用了GM204的兩個細分型號 GM204-400-A1 以及 GM204-200-A1 芯片,拥有52亿的晶体管规模,晶片面积为398平方毫米(此为NVIDIA公布数据)。由於有製造「GK110」這種大面積晶片的經驗,加上面向消費級遊戲應用市場而削減該領域中甚少使用的雙精度浮點數運算電路單元,使得GPU可以更專精於安放遊戲應用更常用的單精度浮點運算電路單元、紋理單元及渲染輸出單元。這些因素成了「GM204」晶片用於遊戲娛樂應用時,拥有卓越性能功耗比的重要因素之一。
与Kepler架构的GK110相比,儘管GM204架构的运算资源总量从2880个ALU(NVIDIA稱為CUDA核心)分别下降到了GeForce GTX 980的2048以及GeForce GTX 970的1664个,Texture Filter Unit则由240个下降到了128个以及104个,但构成后端的ROP在GM204当中被提升到了64个,更庞大的ROP阵列为GM204带来了理想的像素处理能力。
顯示記憶體
GeForce GTX 980/970均拥有4个64bit双通道显存控制器组合形成的256bit显存控制单元,也都采用了4096MB的尺寸的显存体系。
SMM
新的SMM单元较之原先的SMX单元來了一次结构變動,在保留完整的几何前端的前提下,SMM陣列在内部将ALU团簇再次划分成了4个并行的独立子团簇SM,每个SM包含32个ALU,并且都拥有独立的Scheduler/Dispatch以及Register,每两组SM共享一组统一的Texture/L1 D\$ cache,这与SMX单元192个ALU共享同一组Scheduler、Dispatch、L1 D\$ cache以及Register形成了鲜明的对比,而且也进一步提升了每个ALU所能够获得的Register资源量。
支援API
GeForce 900系列目前支援OpenGL 4.5、DirectX 11.3以及OpenCL 1.2,未來可支援DirectX 12。[7][8][9]
產品介紹
桌上型平台
基於Maxwell架構的顯示核心GM204的首發產品是GeForce GTX 970和GTX 980,它們均於2014年9月19日發布。隨後還有GeForce GTX 960,該產品於2015年初發佈;之后還有2015年6月1日发布的GTX 980 TI以及8月20日发布的GTX 950。而頂級顯示核心GM200,被冠以GeForce GTX TITAN X的名號於2015年3月5日公布,除了TITAN X之外,其餘的顯示卡會有不同的廠商生產自製顯卡,還會有背板支撐。
押後發表的GeForce GTX 960、950還支援HEVC/H.265硬體解码,以前發表的型號則只支援HEVC/H.265硬體编码。
- GeForce GTX TITAN X[10] - 2015年3月GDC大會上NVIDIA公佈此顯示卡的消息,顯示核心代號「GM200」,首款產品是為GeForce GTX TITAN X。此顯示核心擁有80億個電晶體,搭配12GiB容量的顯示記憶體;[11]仍使用台積電28奈米製程;供電僅使用了6pin+8pin的輔助供電,功耗250瓦,而12GiB的顯示記憶體容量,則各佈置於顯示卡的正背兩面,外觀保留和TITAN系列的一貫風格但從銀色變成了啞光黑,相對於上一代的TITAN(Black、Z)以及GTX980而言沒有背板支撐和散熱。[12][13][14]另外,GTX TITAN X還將配備低溫散熱風扇停轉的功能。[15]
- GeForce GTX 980 TI - 2015年6月1日發售,核心代號與GTX TITAN X一樣是「GM200」、80億個電晶體、6GiB顯示記憶體,但一共只有2816個CUDA核心、192個紋理貼圖單元、96個輸出渲染單元,不過其餘的規格與熱設計功耗跟TITAN X大致相同,而且與GTX TITAN X相比效能也相差不多,其它的廠商會生廠自製顯卡,顯示時脈會比公板還要高,也會有背板支撐。
- GeForce GTX 980[16]和GeForce GTX 970[17] - 兩者均於2014年9月18日發售,核心代號均為「GM204」之顯示核心(內建52億個電晶體)以及4GiB、等效時脈7010MHz的GDDR5顯示記憶體。但GTX 980的GM204顯示核心是完整版的,共16組SMM陣列(一共2048個CUDA核心、128個紋理貼圖單元)、64個渲染輸出單元、2MiB二級快取,記憶體位寬為256位元,頻寬224GB/s;而GTX 970的GM204核心則相對完整的GTX 980而言刪減了3組SMM陣列(這裡共384個CUDA核心、24個紋理貼圖單元(TMU))以及8個輸出渲染單元(ROP)、二級快取也從2MiB縮減至1.75MiB,記憶體位寬為224位元+32位元的結構,頻寬192GB/s+28GB/s。
- GeForce GTX 960[18]以及GeForce GTX 950[19] - 前者2015年1月22日發售,核心代號「GM206」,內建有29.4億顆電晶體,完整規格,擁有8組SMM單元(共1024個CUDA核心、64個紋理貼圖單元)、32個輸出渲染單元(ROP),使用2GiB或4GiB容量、等效時脈7010MHz規格的GDDR5顯示記憶體,記憶體位寬128位元、頻寬112GB/s;除了核心時脈以外,規格上幾乎是「GM204」的一半,用作取代GeForce GTX 760及其衍生型號。而GTX 950則於2015年8月20日發售,核心代號與GTX 960的同為「GM206」,但比GTX 960的少了兩組SMM單元(而ROP單元數量維持不變),時脈參數也比GTX 960的來得低,是GeForce 900系列中階產品,用來取代750/750TI,只不過熱設計功耗進一步降低到90W,僅需要接一個6PIN外掛電源接頭;此款型号恢复了在650/650TI以及750/750TI中取消的SLI功能。
GeForce GTX 970規格參數爭議
GeForce GTX 970 的規格參數爭議主要在於顯示記憶體、ROP單元、二級快取的數量/容量上實際產品與發布宣傳時公佈的不一致。其中,特別是顯示記憶體存取結構,因為沒詳細公佈出來,而導致用家在一些使用場合上觀察到顯示記憶體存取效能上有差異:GTX 970搭載了4GiB容量的GDDR5顯示記憶體,而實際上只有3.5GiB的容量可以全速存取,越過了3.5GiB容量的界限以後的區塊幾乎沒有存取動作,儘管一般使用甚少會越過此界限,但使用這剩餘的0.5GiB容量的顯示記憶體存取效能明顯下降了。其後越來越多的效能測試以及調查結果,使輝達承認,GTX 970的顯示記憶體的使用超過3.5GiB容量界限以後效能下降的事實,並對此做出解釋道,顯示卡正式發售前沒有事先通知或公佈Maxwell架構的顯示核心更精細的核心單元遮蔽方式(這種遮蔽方式更有利於良品率和成本控制)。[20][21][22][23]
顯示核心硬體後端的參數,最初輝達的發布會上顯示,GTX 970和GTX 980是一樣的。而實際上,970後端的ROP單元僅有56個而非980的64個,二級快取也僅有1.75MiB而非980的2MiB,這些後端單元數量/容量上的差異導致了970上的4GiB顯示記憶體定址與980的有差異,使得4GiB中的3.5GiB可供顯示核心全速存取,剩餘的0.5GiB區段的效能只有全速3.5GiB區段的1/7。[24] 儘管這一結果不影響此前幾乎所有的GTX 970效能測試結果,而輝達也對規格參數錯誤一事做出道歉並承諾下次會準確公佈各型號圖形處理器的參數,並在驅動程式的開發上對GTX 970的顯示記憶體使用作特別的最佳化,盡可能避免使用4GiB中最後512MiB的低速區段以減輕其性能衝擊。[25]然而輝達又改口稱,因內部的溝通不暢,此前發布供GeForce900系列使用的驅動程式中實際已對GTX 970的顯示記憶體使用做過最佳化,不再需要特別對待。[26]而輝達的討論社區中也有工作人員稱會對欲退貨的GTX 970買家提供協助[26][27]2015年2月26日,輝達的CEO黃仁勳在輝達的官方部落格上對該起失誤事件做出正式道歉。[28][29]
輝達發布的勘誤聲明中,表示SMM中各單元是可進行單獨的遮蔽,每一個單元包括256KiB的二級快取和8個ROP單元後端,而遮蔽這些單元並不影響顯示記憶體的記憶體控制器。[30]這樣做的代價是記憶體匯流排被分為高速區段和低速區段,這兩段不能夠同時進行存取操作,最多只能在一個區段進行讀操作的同時另一區段進行寫操作,不能同時進行存取操作,是因為二級快取和ROP單元都管理著這些GDDR5記憶體控制器以共用在兩個GDDR5記憶體控制器和它們自己之間的讀迴圈通道和資料寫入匯流排,即一個64位元的記憶體控制器管轄最後512MiB慢速區段的和鄰近的3.5GiB高速區段的512MiB,共同由一組8個ROP單元和這0.25MiB的二級快取連接使用。[30]這樣做使得GTX 970可使用4GiB的顯示記憶體而非3GiB。簡單來說就是GTX 970上256位元寬度的GDDR5記憶體匯流排,有224位元連接3.5GiB的高速區段,有32位元連接512MiB的低速區段。[30][23]
部分早前購買GTX 970的用家,以及留意到這起事件的律師行,也就這起參數爭議事件涉嫌侵犯使用者知情權或對輝達發起集體訴訟,[31][32]儘管實際使用表明GTX 970顯示記憶體的特殊結構對效能影響並不高,只有1~3%,而非畫面卡頓[33][34],而輝達此前也有GeForce GTX 660使用非對稱顯示記憶體的先例。[35][36]
有限的DirectX 12硬體支援
NVIDIA標榜「Maxwell」GPU微架構是可以完整支援DirectX 12。[37][38][39]但是,首款使用DirectX 12的遊戲——奇点灰烬,其開發商——Oxide Games遊戲工作室,在遊戲的開發階段,發現「Maxwell」架構GPU的顯示卡,並不能在DirectX 12下發揮出應有的效能(相比DirectX 11下並沒有明顯的效能進步)。[40][41]
Oxide Games表示,儘管NVIDIA的官方文宣上宣稱GeForce 900系列GPU能使用DirectX 12的所有功能,但是Maxwell的GPU,實際上並不能使用DirectX 12的核心功能——非同步運算以及非同步渲染管線,[38]而NVIDIA為了實現這些新功能,在驅動程式層級中安插了Shim(一種提供應用程式介面(即API)的驅動庫)中介層來實作它們,但這種實作方式,需要佔用一定的GPU運算資源。簡單來說,NVIDIA採用了軟體的方式實現DirectX 12的部分核心功能,因此會造成效能上的折損。[41]
而與之相對,Oxide Games則表示,AMD的GCN GPU架構中已經包含了非同步運算及渲染的硬體電路,[42]因此可以無需透過中介層,驅動程式可直接調用硬體電路單元來實作DirectX 12,儘管支援的功能層級是基本的Feture Level 12_0,因此GCN架構的GPU可以憑藉DirectX 12在效能測試抑或是遊戲效能中獲得較為明顯的效能提升。[41][43][44]
Oxide Games稱在於NVIDIA磋商解決效能問題時,卻遭到NVIDIA方面向工作室的施壓,要求在遊戲效能測試中不能使用DirectX 12的非同步運算功能,因此工作室方面認為,NVIDIA的GeForce 900系列GPU面對對手AMD同級別的、對DirectX 12的核心功能能順利支援的GCN架構GPU時會處於劣勢。[40]不過在2015年8月4日,Oxide Games方面解釋,「我們確實與NVIDIA的人員交流關於非同步運算方面的話題,確實,驅動程式方面尚未能完全實作它,但驅動程式卻報告它能夠實作之」[45],NVIDIA也正與Oxide Games合作,令900系列能夠實現非同步運算。由於不像AMD的GCN架構以硬體電路實現非同步運算,NVIDIA將必須仰賴驅動程式及其中介層,實現軟體層級的隊列及軟體層級的任務分發器,來轉發非同步運算任務到其GPU的硬體任務排程器上,令其勝任將運算負荷能分配至GPU中正確的電路單元上的工作。[46]
行動平台
本系列同時還有針對行動平台發佈的GeForce GTX 970M和GTX 980M以及GTX 960M GTX 965M ,GTX 950M 和 GeForce 940M 930M 920M ,他們在桌上型平台發佈之後跟進。搭载这數款型号的笔记本电脑现已上市,後期會有從桌上型移植到行動平台的980 Notebook。
NVIDIA於2016年3月無預警推出3款MX型號顯示核心——920MX、930MX及940MX,同時也推出910M。930MX與940MX者架構與930M及940M相同,920MX架構則放棄Kelper/Fermi架構改用Maxwell架構;910M則使用Kelper/Fermi架構,然而MX型號的記憶體及處理器時脈比M型號高,同時記憶體也支援GDDR5,不過有些廠商為了節省成本則仍然使用DDR3記憶體。
晶片規格
注:
- 1 統一渲染器/流處理器數量 : 紋理映射單元數量 : 渲染輸出單元(ROP單元)數量
- 2 畫素填充率的計算:ROP單元數量乘以基準核心時脈
- 3 紋理填充率的計算:紋理映射單元數量乘以基準核心時脈
- 4 單精度浮點數運算效能的計算:渲染器/CUDA核心/流處理器的數量×2,再乘以基準核心時脈
- 5 GTX 980,GTX 970,GTX 960以及GTX 950的雙精度浮點數運算效能是單精度浮點數運算效能的1/32[47]
- 6 NVIDIA SLI支援最多4塊相同GPU的單GPU的顯卡組成4路SLI配置,除此以外多塊相同GPU的顯卡可組成3路或雙路連結配置。然而由於雙GPU的顯示卡已經相當於雙路SLI配置,這類顯示卡組成4路SLI僅需另外一塊可識別的相同的雙GPU顯示卡即可,但不能組成3路SLI的配置。
- 7 由於遮蔽了一個或數個區塊的二級快取/ROP單元而不影響所有對應的記憶體控制器,顯示記憶體會被分段。一個區段在寫入資料時另一區段也必須保持讀取資料以達成兩者的最高效能,這個效能數值不會高於純讀取或純寫入時的效能數值,在下表中記憶體匯流排已被分別顯示(「224+32」的樣式)
桌上型平台顯示核心
型號
|
推出年份
|
核心 代號
|
製程 (nm)
|
晶体管數 & 晶粒面積
|
核心配置
|
時脈頻率
|
填充率
|
顯示記憶體
|
運算性能 (GFLOPS)
|
匯流排 介面
|
TDP (W)
|
SLI 支援
|
發售價格 (美金)
|
核心組態 SPs:TMUs:ROPs[a]
|
二級 暫存 (MB)
|
預設 (MHz)
|
加速 (MHz)
|
記憶體 (MT/s)
|
像素 (GP/s)
|
材質 (GT/s)
|
容量 (GB)
|
頻寬 (GB/s)
|
類型
|
介面 頻寬 (位元)
|
單精度
|
雙精度
|
GeForce GTX 950
|
2015年8月20日
|
GM206
|
28
|
29.4億 227mm2
|
768:48:32 (6 SMM)
|
1
|
1024
|
1188
|
6610
|
32.7
|
49.2
|
2 / 4
|
106
|
GDDR5
|
128
|
1572
|
49.1
|
PCIe 3.0 x16
|
90
|
2路
|
$159
|
GeForce GTX 950 (OEM)
|
2016年1月1日
|
1024:64:32 (8 SMM)
|
935
|
1203
|
5010
|
38.5
|
76.99
|
4
|
80.19
|
1915
|
76.99
|
未知
|
不適用
|
OEM
|
GeForce GTX 960
|
2015年1月22日
|
1127
|
1178
|
7010
|
39.3
|
72.1
|
2 / 4
|
112
|
2308
|
72.1
|
120
|
2路
|
$199
|
GeForce GTX 960 (OEM)
|
2015年11月6日
|
GM204
|
52億 398mm2
|
1280:80:48 (10 SMM)
|
1.5 1
|
924 1176
|
不適用 1201
|
5010 7010
|
44.4 38.4
|
73.9 76.9
|
3 4
|
120 112
|
192 128
|
2365 2460
|
73.9 76.8
|
未知
|
OEM
|
GeForce GTX 970
|
2014年9月18日
|
1664:104:56 (13 SMM)
|
1.75
|
1050
|
1178
|
7010
|
54.6
|
109.2
|
3.5 +0.5
|
196 +28
|
224 +32
|
3494
|
109
|
145
|
3路
|
$329
|
GeForce GTX 980
|
2048:128:64 (16 SMM)
|
2
|
1126
|
1216
|
72.1
|
144
|
4
|
224
|
256
|
4612
|
144
|
165
|
4路
|
$549
|
GeForce GTX 980 Ti
|
2015年6月2日
|
GM200
|
80億 601mm2
|
2816:176:96 (22 SMM)
|
3
|
1000
|
1076
|
96
|
176
|
6
|
336
|
384
|
5632
|
176
|
250
|
$649
|
GeForce GTX TITAN X
|
2015年3月17日
|
3072:192:96 (24 SMM)
|
1089
|
192
|
12
|
6144
|
192
|
$999
|
行動平台顯示核心
某些實作方式(如筆記型電腦)會使用不同的參數。
型號
|
推出年份
|
核心 代號
|
製程 (nm)
|
晶体管數 & 晶粒面積
|
核心組態 SPs:TMUs:ROPs
|
時脈頻率
|
填充率
|
顯示記憶體
|
運算性能 (GFLOPS)
|
匯流排 介面
|
TDP (W)
|
SLI 支援
|
預設 (MHz)
|
加速 (MHz)
|
記憶體 (MT/s)
|
像素 (GP/s)
|
材質 (GT/s)
|
容量 (GB)
|
頻寬 (GB/s)
|
類型
|
介面 頻寬 (位元)
|
單精度
|
雙精度
|
GeForce 910M
|
2015年3月15日
|
GK208
|
28
|
10.2億 87mm2
|
384:32:16 (2 SMX)
|
575
|
1800
|
5.13
|
9.2
|
2
|
14.4
|
DDR3
|
64
|
441.6
|
18.4
|
PCIe 3.0 x8
|
33
|
否
|
2015年8月18日
|
GF117
|
5.85億 116mm2
|
96:16:8 (2 SM)
|
775
|
1550
|
3.1
|
12.4
|
1
|
297.6
|
未知
|
GeForce 920M
|
2015年3月13日
|
GK208
|
10.2億 87mm2
|
384:32:16 (2 SMX)
|
954
|
7.6
|
30.5
|
2
|
732.7
|
22.9
|
GeForce 920MX
|
2016年3月1日
|
GM108
|
未知
|
256:24:8 (2 SMM)
|
1072
|
1176
|
8.58
|
25.7
|
DDR3 GDDR5
|
549
|
未知
|
16
|
GeForce 930M
|
2015年3月13日
|
384:24:8 (3 SMM)
|
928
|
941
|
7.4
|
22.3
|
DDR3
|
712.7
|
22.3
|
33
|
GeForce 930MX
|
2016年3月1日
|
952
|
1020
|
2000
|
8.16
|
24.48
|
DDR3 GDDR5
|
783.4
|
24.48
|
17
|
GeForce 940M
|
2015年3月13日
|
GM107
|
18.7億 148mm2
|
640:40:16 (5 SMM)
|
1029
|
1100
|
2002
|
16.5
|
41.2
|
16-80.2
|
128
|
1317
|
41.1
|
PCIe 3.0 x16
|
75
|
GM108
|
未知
|
384:24:8 (3 SMM)
|
8.2
|
16.5
|
64
|
790.3
|
24.7
|
PCIe 3.0 x8
|
33
|
GeForce 940MX
|
2016年3月10日
|
1122
|
1242
|
8.98
|
26.93
|
2 4
|
16.02 40.1
|
953.9
|
29.81
|
23
|
GeForce 945M
|
2015年10月27日
|
GM107
|
18.7億 148mm2
|
640:40:16 (5 SMM)
|
1029
|
1085
|
16.46
|
41.2
|
2
|
28.8
|
DDR3
|
128
|
1306
|
40.8
|
75
|
2016年4月8日
|
GM108
|
未知
|
384:24:8 (3 SMM)
|
1122
|
1242
|
8.98
|
26.93
|
1
|
16.02
|
64
|
913.2
|
28.54
|
23
|
GeForce GT 945A
|
2015年3月13日
|
1072
|
1176
|
1800
|
8.58
|
25.73
|
2
|
14.4
|
913.2
|
28.54
|
33
|
GeForce GTX 950M
|
2015年3月13日
|
GM107
|
18.7億 148mm2
|
640:40:16 (6 SMM)
|
914
|
1085
|
5012
|
14.6
|
36.6
|
2 4
|
80 32
|
GDDR5 DDR3
|
128
|
1170
|
36.56
|
PCIe 3.0 x16
|
75
|
GeForce GTX 960M
|
1029
|
16.5
|
41.2
|
2 4
|
80
|
GDDR5
|
1317
|
41.16
|
65
|
GeForce GTX 965M
|
2015年1月5日
|
GM204
|
52億 398mm2
|
1024:64:32 (8 SMM)
|
924
|
950
|
5000
|
30.2
|
60.4
|
1945
|
60.78
|
60
|
是
|
GeForce GTX 970M
|
2014年10月7日
|
1280:80:48 (10 SMM)
|
924
|
993
|
5012
|
37.0
|
73.9
|
3 6
|
120
|
192
|
2365
|
73.9
|
75
|
GeForce GTX 980M
|
1536:96:64 (12 SMM)
|
1038
|
1127
|
49.8
|
99.6
|
4 8
|
160
|
256
|
3189
|
99.6
|
100
|
GeForce GTX 980 Notebook
|
2015年9月22日
|
2048:128:64 (16 SMM)
|
1064
|
1216
|
7010
|
72.1
|
144
|
224
|
4612
|
144
|
145
|
參見
腳註
註解
參考資料
外部連結