logo

解密之書

科技

穿越千里追光影:Nvidia顯示卡的演進之路

撰寫日期:

撰寫作者:

Cameron

標籤:

Nvidia

重點整理:

1. 從Fermi到Turing,Nvidia顯示卡不斷地在追求更高的效能與效率

2. 一起來看看它們背後的技術演進,與未來可能的方向

從歷史的洪流中抽絲剝繭—Nvidia的顯示卡進化史

各位科技迷們,今天讓我們一同駕馭時間的船艦,回溯科技的漫漫長河,探討我們最熟悉且深受全球愛好者矚目的顯示卡品牌—Nvidia的成長歷程。正如我們會讚嘆萬里長城的雄偉壯觀,同時也不忘回首其一磚一瓦的堆砌過程,我們來看看這位科技巨頭如何步步為營,從最初的雛形演變為今日的科技奇觀。

早期的摸索—從GF100到Kepler架構

說到Nvidia的早期,我們不得不提到那款在2010年被譽為旗艦的GeForce GTX 480顯示卡。當時,這款基於GF100架構、擁有512個核心和1,345 Gflops的顯示卡,可謂是當時的極品。但卓越的性能並未使Nvidia駐足不前,相反的,他們開始了更深入的摸索與嘗試。

就在2012年,Nvidia發布了被稱為Kepler的新架構,以著名的天文學家——開普勒命名。該架構的主要革新在於,將核心時鐘與卡時鐘統一,並降低了時鐘速度,以提高能效。另一方面,他們將製程精緻化至28nm,並改用軟件調度,以取代原先的硬體調度,以此提升SMs的數量和設計的效率。

革新的嘗試—Maxwell與Pascal架構

GPU

隨著2014年Maxwell架構的推出,Nvidia開始在"極端的能效"和"每瓦特的超卓性能"兩大領域尋求突破。從過去以非2的次方的CUDA核心數量為基礎的設計,Maxwell選擇回歸到執行半線程束的設計,這也是該系列中首次 特性少於其前任的情況。然而,反其道而行之的改變卻帶來了卓越的效果,他們不僅保留了第一代的能源效率,還大幅度提高了性能。

如果說Maxwell是突破,那麼2016年的Pascal架構無疑是一次革命。在16nm的製程下,Nvidia在Pascal中打造了如同Maxwell一般的SM,並再次翻倍了Gflops。與此同時,他們的記憶體系統也實現了重大突破,以新一代的GDDR5X為基礎,實現了10Gflops的傳輸速度。

突破傳統—Turing架構與未來展望

而在2018年,Nvidia推出了被譽為"十年來最大的架構飛躍"的Turing架構。在此架構中,Nvidia首次將專門為AI設計的Tensor核心和光線追蹤核心加入到SM中,並引入了獨立線程調度的新概念。這種架構的改變,使我們看到了與Pre-Tesla分層架構相似的影子,證明了歷史總是有其輪迴之處。

究竟未來的Nvidia將會如何繼續創新?他們會如何面對擁有三種不同目的核心的SM呢?我們是否會看到完全由Tensor核心或者RT核心組成的顯示卡呢?這些都是值得我們期待的未來。

從GF100到Kepler:步步提升

回顧Nvidia的發展歷程,我們看到了技術的革新與進步。GeForce GTX 480顯示卡,這款2010年的旗艦產品,基於GF100架構,擁有512個核心和1345 Gflops的運算能力。然而,時至今日,這樣的規格已經被大大超越。2012年,Nvidia推出Kepler架構,這次更新,不僅降低了時鐘速度,統一了核心時鐘與卡時鐘,更把製程技術提升到了28nm。

Maxwell和Pascal:技術革新,性能提升

轉眼到了2014年,Nvidia再次為我們帶來了驚喜。Maxwell架構的誕生,標誌著Nvidia進入了"極端的能效"和"每瓦特的超卓性能"的新階段。Maxwell回歸到了執行半線程束的設計,首次比前代產品核心數量少,但卻提升了效能,並保持了出色的能源效率。2016年的Pascal架構,更是如一顆璀璨的明珠,閃耀著創新的光芒。在這一代的產品中,我們看到了以新一代的GDDR5X為基礎,實現了10Gflops的傳輸速度。

前瞻未來:Turing和Ampere

Turing架構的出現,帶來了前所未有的技術變革。首次在SM中加入專為AI設計的Tensor核心和光線追蹤核心,帶來了強大的性能。不僅如此,他們還引入了獨立線程調度的新概念,大大提高了運算效率。

隨著技術的發展,我們也在期待著新的變革。傳聞將在2020年底發布的Ampere架構,將會是Nvidia的下一代產品。期待著他們能夠在這款新產品中,再次帶來突破性的技術革新。擁有三種不同目的核心的SM,將如何影響 我們的數據處理和運算效率呢?我們將滿懷期待地等待著。

概念上的躍進:線程獨立排程與超純量設計

Turing架構引入了獨立線程排程(Independent Thread Scheduling)的概念,這對於線程在SM中的排程方式產生了深遠的影響。以往,一個warp中的線程需要共享指令指針,而在新的設計中,每個線程都有自己的指令指針,使得SM有更大的自由度去進行線程的微調排程。

而在CUDA核心的設計上,Nvidia也首次將整數運算和浮點運算並行處理。這個超純量(superscalar)設計讓Nvidia的圖形處理器在執行計算任務時,能夠同時進行不同類型的運算,大大提升了效率。

創新的記憶體子系統:GDDR6X

Turing架構同時也引入了全新的GDDR6X記憶體子系統。這種記憶體可以達到每秒14Gbps的傳輸速率,比之前的GDDR5X提高了近40%,為處理器提供了更大的數據帶寬,減少了warp的饑餓狀態。

舉世矚目的Tensor核心與光線追蹤核心

最後,值得一提的是,Turing架構中首次引入的專門為AI運算設計的Tensor核心和專門為實現真實光線效果的光線追蹤核心。Tensor核心專注於進行大量的矩陣運算,能夠極大提升AI運算效率;而光線追蹤核心則改變了我們過去對於光線渲染的理解,讓真實的光線效果能夠在即時渲染的遊戲中得以實現。

相關貼文