NVIDIA TITAN V發(fā)布,TITAN Xp是不是要淘汰了?
網(wǎng)友解答: 今天NVIDIA發(fā)布了基于Volta架構(gòu)打造的新旗艦顯卡TITAN V,難道前幾天京東上要預(yù)約參加搶購才能到手的TITAN Xp現(xiàn)在就已經(jīng)過時了?TITAN V采用12nm工
今天NVIDIA發(fā)布了基于Volta架構(gòu)打造的新旗艦顯卡TITAN V,難道前幾天京東上要預(yù)約參加搶購才能到手的TITAN Xp現(xiàn)在就已經(jīng)過時了?
TITAN V采用12nm工藝的Volta核心打造,也是Volta架構(gòu)第一款面向游戲玩家推出的旗艦顯卡。TITAN V配備12GB HBM2顯存,峰值浮點性能高達110TFlops,是現(xiàn)在TITAN Xp的9倍。TITAN V基于GV100核心,核心面積815平方毫米,比Xp的GP102也幾乎大了一倍。另外TITAN V內(nèi)建5120顆CUDA核心,640顆Tensor核心(用于AI專門計算和加速),核心主頻1200MHz,加速頻率1455MHz,然而TITAN V僅用一個渦輪風(fēng)扇就可以鎮(zhèn)壓。
NVIDIA TITAN V其實保留了專業(yè)級的一些特性,NVIDIA也希望深度學(xué)習(xí)計算的桌面PC研究者可以嘗試這款顯卡,因為它可以極大提高效率。官方TITAN V的定價高達2999美元,是TITAN Xp的兩倍了。在今天晚些時候就會上市,首批銷售國家應(yīng)該是沒有中國了。
網(wǎng)友解答:不得不說,NVIDIA CEO 黃仁勛對于非Gefore系列產(chǎn)品保密實在是太好了,每一次“核彈”發(fā)布都是出其不意。今天老黃在NIPS 2017全球神經(jīng)信息處理系統(tǒng)大會上突然就發(fā)布了全新Volta架構(gòu)的NVIDIA TITAN V!CUDA流處理器暴增至5120個,配備了12GB的HBM 2顯存,單精度浮點性能高達15TFlops,而表示深度計算能力的Tensor性能高達110TFlops,相當于TITAN Xp的9倍。顯然這張TITAN V已經(jīng)側(cè)重于AI人工智能、深度計算上,與我們游戲玩家漸行漸遠了,那么這張TITAN V有什么值得我們關(guān)注的亮點呢?
全新Volta架構(gòu):
雖然目前NVIDIA還沒有吹Volta架構(gòu)的新特性,不過顯然已經(jīng)針對HBM 2顯存做足了優(yōu)化,通過新的內(nèi)存控制器對超高位寬的HBM 2性能發(fā)揮到極致,以此保證比前作TITAN Xp 1.2倍的內(nèi)存帶寬,在運行負載時,可以讓內(nèi)存帶寬利用率提升至95%的新水平。
如果你要問目前Tesla V100以及TITAN V所采用的GV100核心是否已經(jīng)“滿血”,那么可能要大失所望了,這并不是滿血版。根據(jù)NVIDIA早前放出的Volta架構(gòu)白皮書,顯示最頂級的GV100核心將會有6組GPC單元,每組GPC單元由14組SM單元構(gòu)成,滿血版應(yīng)該是6 x 14 = 84組SM單元,但Tesla V100/TITAN V均只有80組,每組SM單元64個CUDA單元,因此共同構(gòu)成80 x 64 = 5120個CUDA單元,創(chuàng)下了歷史之最。但顯然,NVIDIA還留有4組SM單元殺招。
根據(jù)NVIDIA的白皮書介紹,Volta架構(gòu)的SM單元做了大幅改進,新的SM單元能效比Pascal這代提升50%,因此才能在同樣的功耗封裝下大幅提升FP32/FP64計算性能。
1:2的雙單精度比:
之前的TITAN顯卡為了在游戲性能與功耗之間做出平衡,無情地砍掉了雙精度單元,讓TITAN Xp上的雙單精度單元比將至1:32的新低水平。不過這一代TITAN V似乎不側(cè)重于游戲方面了,不僅高達2999美元的售價,還有其雙精度單元也回來了,重新回到1:2的比例。雙精度性能由TITAN Xp可憐的0.38TFLOPS提升至6.9TFLOPS,提升幅度高達18倍。
12nm FFN工藝:
Volta顯卡使用TSMC臺積電與NVIDIA定制的12nm FFN工藝是早就確認的事情,和之前的16nm相比有哪些改進?其實就是16nm的第四代改良版本,為了打敗競爭對手,不惜玩弄文字游戲。不過提升還是有的,表現(xiàn)在更高的晶體管密度、更低的功耗,性能比16nm FFC工藝提升10%,但是核心面積可縮減20%。
即便如此,GV100大核心的面積依然從目前的GP100核心的610mm2增加到了815mm2。核心面積增大如此之多主要是因為42%的CUDA單元增長導(dǎo)致的。
12GB HBM 2顯存:
HBM 2顯存 NVIDIA也不是第一天用,只不過速度上更快一些,由Tesla P100上的700MHz提升到850MHz,供應(yīng)商很大幾率還是三星,應(yīng)該也是單顆粒4GB容量,3顆構(gòu)成TITAN V上的3072-bit 12GB HBM 2顯存,顯存帶寬再抬升一個臺階達652.8GB/s。
在架構(gòu)圖上,GV100完整核心是有8組512bit顯存控制器,每個HBM 2堆棧搭配2組顯存控制器。
640個Tensor單元:
顯然NVIDIA已經(jīng)將公司前景壓在了AI與深度計算上,因此開發(fā)適用于深度計算的運算單元很有必要,可以在硬件層面上快速提升深度計算能力,做到事半功倍效果。
新的 Tensor Core 是專門為深度學(xué)習(xí)設(shè)計的,為相應(yīng)的浮點運算速度帶來了 12 倍的提升。并且由此擁有了獨立的、并行的整型和浮點型數(shù)據(jù)通路,Volta SM單元在負載上也更高效,混合了計算與地址運算。Volta 新的獨立線程調(diào)度能力使得并行線程之間的細粒度同步協(xié)同成為可能。
正正是特事特辦的方式,讓TITAN V擁有了640個Tensor單元,提供高達110TFLOPS的深度計算性能,是沒有Tensor單元的TITAN Xp 9倍之多。
沒有NVLink/SLI:
原本NVLink是專屬于NVIDIA計算卡一種高帶寬的互聯(lián)技術(shù),能夠在CPU-GPU和GPU-GPU之間實現(xiàn)超高速的數(shù)據(jù)傳輸。誕生之初就獲得傳統(tǒng)PCIe 3.0(32GB/S)5-12倍的數(shù)據(jù)傳輸速度,還能大幅提升應(yīng)用程序的處理速度。在最新的Volta架構(gòu)中,NVIDIA將其提升至300GB/s水平,幾乎是PCI-E 3.0的10倍速度。
Telsa V100是支持使用Quadro NVLINK Bridge,而且一次用兩個,一條橋價格是599美元,約等于一張GTX 1080架構(gòu)。不過你放心,TITAN V壓根就不支持這玩意,經(jīng)過向NVIDIA官方求證,Quadro NVLINK Bridge僅適用于Quadro以及Telsa系列產(chǎn)品,TITAN V并不支持,上面的接口被背板夾住,是插不進去的,就是個樣子貨,連SLI HB橋都不能用。
看清楚,這金手指被夾住了
我就是賣那么貴
2999美元售價:
這價格貴嗎?比起TITAN Xp的1200美元當然貴多了,我買兩張TITAN Xp 星戰(zhàn)典藏版還沒一張TITAN V貴呢!也難怪NVIDIA全球副總裁張建中會說,下一代游戲卡更貴。
但是你想想這一代的TITAN顯然不是針對游戲玩家,使用了GV100頂級核心、12GB HBM 2顯存、不砍雙精度單元,這不就是工作站卡、計算卡嗎?賣1.98萬元人民幣真的不貴。
對比起Tesla V100報價1萬美元起(6.6萬人民幣),或者是報價149000美元(98.6萬人民幣)擁有8張Telsa V100的新DGX-1售價來說,甚至說1.98萬元人民幣有點仁慈了。
在NIPS 2017大會上,NVIDIA CEO黃仁勛高興地說道“我們將會把TITAN V送到世界各地的研究人員手中,迫不及待地分享突破性發(fā)現(xiàn)”。是的,老黃又調(diào)皮了,現(xiàn)場送出了20張TITAN V。
寫在最后:
爾等都在流口水是吧,沒錯,我們也一樣,既然連NVIDIA TITAN Xp Colletor'Edition星球大戰(zhàn)典藏版都買了兩張,老黃不送就自己買唄。
是的,不好意思,我們小手一抖,TITAN V即將到手。用了最快的快遞,你們等著全網(wǎng)首發(fā)吧。
其實也不是要炫耀什么,畢竟今年NVIDIA并有發(fā)布預(yù)料之中的Volta游戲卡,玩家們都饑渴難耐地想知道GTX 2000系列顯卡的性能,我們寄望于通過目前能賣的TITAN V來進行必要的測試,以此管中窺豹。
盡管這一代的TITAN V并不像是游戲卡,采用GV100大核心很可能只適用于深度計算以及工作站,對我們這些游戲玩家有意義的是后續(xù)的GV102核心(可能,傳聞Volta架構(gòu)顯卡不會有游戲卡),精簡掉對游戲毫無用處的Tensor、雙精度單元,在砍L2緩存,HBM 2顯存可以保留在旗艦卡皇上,普通卡可能是新的GDDR6顯存,做到提升性能同時保持/降低功耗。
能不能做到GTX 2060打敗GTX 1080這種事,我們還是先YY一下吧。