英偉達(dá)cuda的優(yōu)勢(shì)及挑戰(zhàn)
wangdizhe
ds對(duì)英偉達(dá)的挑戰(zhàn),并不是簡(jiǎn)單的“算法平權(quán)”。。還有開(kāi)源對(duì)閉源的挑戰(zhàn)。。。如果只是了解ah100或者gb200這種東西,意義不大,英偉達(dá)的護(hù)城河主要是cuda。。
cuda的故事起步于2006年11月份發(fā)布的geforce8800gtx。。。19年前了,那是一個(gè)起點(diǎn)。。。。2007年6月份發(fā)布了nv的gpgpu,cuda出世。。這個(gè)跳躍是讓顯卡不僅能用在圖像繪制了,也能用在其他方面了
ai的本質(zhì),其實(shí)和btc的哈希算法類(lèi)似,都是大量的數(shù)學(xué)計(jì)算。。。這也可以解釋為啥近10年金融越來(lái)越“數(shù)學(xué)化”,包括做對(duì)沖的幻方能弄出ds,也是因?yàn)樗亲罹摺敖鹑跀?shù)學(xué)化底蘊(yùn)的對(duì)沖私募”。。。
主要就是transformer那套,也就是比如從一維的向量到二維的矩陣。。然后再到三位或高位的張量。。核心不在于算的多難,而在于算的題量很大。。
gpu更像一個(gè)“事業(yè)部經(jīng)理”,而cpu類(lèi)似于一個(gè)“ceo”。。。it世界一開(kāi)始,ceo比較重要 ,因?yàn)闄C(jī)會(huì)多多,需要面面俱到,就像80-90年代做生意,壓對(duì)方向很重要。。。但隨著時(shí)間發(fā)展,需要不斷“細(xì)分而深化”,尤其是顯卡計(jì)算部分,這部分其實(shí)初期是游戲推進(jìn)的,但后期科學(xué)計(jì)算的需求上來(lái)了,把控機(jī)會(huì)需要更好的“項(xiàng)目經(jīng)理”。。
Gpu內(nèi)部有很多邏輯計(jì)算單位,每個(gè)單元基本上只做簡(jiǎn)單的加減乘除,靠著分工協(xié)同完成龐大的計(jì)算任務(wù)。。。cuda就是gpu這個(gè)項(xiàng)目部經(jīng)理手下的“調(diào)度總管”(類(lèi)似于常務(wù)主管)。。比如計(jì)算張量這個(gè)活,就具體分派誰(shuí)誰(shuí)來(lái)做。。。也就是cuda的作用,其實(shí)就是“算力調(diào)度者”,它優(yōu)化算法效率。。。
這個(gè)作用類(lèi)似于斯隆對(duì)通用汽車(chē)的管理,也就是在具體的“算力事業(yè)部?jī)?nèi)”,cuda這個(gè)算力調(diào)度者,甚至有比肩整個(gè)事業(yè)部經(jīng)理的實(shí)力。。。因?yàn)樗^的算力,amd也有,也就是經(jīng)理不稀罕,調(diào)度總管那套管理方法,卻是稀缺的。。。
算力管理的優(yōu)化,也是ds之所以引人矚目的地方,因?yàn)槿藗冋J(rèn)為“算力調(diào)度工作”應(yīng)該在cuda邏輯下優(yōu)化。。。但沒(méi)想到ds,用了一些方法,似乎實(shí)現(xiàn)了更大的優(yōu)化,人們好奇的就是它是如何實(shí)現(xiàn)的?以及優(yōu)化算力之后,對(duì)于未來(lái)算力需求是不是降低?以及這對(duì)于“算力優(yōu)化”世界,意味著什么?
cuda的好處,是如果研究者,只會(huì)ai模型的訓(xùn)練及推理方法,而不會(huì)任務(wù)分類(lèi)的話(huà),也沒(méi)事,nv有cudnn程序庫(kù),這樣玩ai的,只需要專(zhuān)注于訓(xùn)練或推論就行了。。。因?yàn)槟P椭兴行枰蝿?wù)分類(lèi)的地方,cudnn都會(huì)自動(dòng)配置好。。。。。就是cuda不僅配合nv硬件可以發(fā)揮更高更快的算法優(yōu)勢(shì),而且也幫你做好了“算力分配套件”(也就是任務(wù)翻譯),降低了項(xiàng)目開(kāi)發(fā)的門(mén)檻,等于是一個(gè)特殊的“懶人包”。。。所以開(kāi)發(fā)人員都喜歡用,然后20年過(guò)去了,用的人越來(lái)越多,產(chǎn)生生態(tài)影響力和開(kāi)發(fā)依賴(lài)度。。。
未來(lái)英偉達(dá)還要推行量子計(jì)算,比如2023年就推出了cuda quantun平臺(tái),這部分也是為未來(lái)布局。。其實(shí)邏輯核心依然是“并行計(jì)算”,也就是用多個(gè)處理單元,同時(shí)推進(jìn)。。。計(jì)算量越大,越快,就越容易“大力超快出奇跡”。。。從一定程度上,可以理解cuda在gpu領(lǐng)域,是類(lèi)似于x86在cpu領(lǐng)域的那種“專(zhuān)利優(yōu)勢(shì)”。。。
cuda未來(lái)就沒(méi)有挑戰(zhàn)么?當(dāng)然有的,大概4個(gè)維度
1、硬件挑戰(zhàn)
首先基本上,每個(gè)做cpu的,其實(shí)都看著做gpu的這么火眼饞。。。amd的mi300x使用cpu+gpu的異構(gòu)結(jié)構(gòu),擁有192gbhbm3內(nèi)存和5.3TB/s帶寬,直接對(duì)標(biāo)英偉達(dá)的H100,價(jià)格基本是其三分之一。。。然后amd還通過(guò)ROCm平臺(tái)通過(guò)兼容CUDA代碼吸引開(kāi)發(fā)者,弱化CUDA生態(tài)。。。英特爾雖然遇到困境,但有美國(guó)政府撐腰,也沒(méi)閑著,其GPU加速器結(jié)合了Xe架構(gòu)和開(kāi)放標(biāo)準(zhǔn)SYCL,通過(guò)OneAPI實(shí)現(xiàn)跨硬件(CPU/GPU/FPGA)統(tǒng)一編程,降低對(duì)CUDA的依賴(lài)。
然后就是科技巨頭的自研芯片,比如谷歌TPU通過(guò)專(zhuān)用張量核心和軟件棧在AI訓(xùn)練中實(shí)現(xiàn)更高能效比。。。AWS的自研芯片直接與CUDA生態(tài)脫鉤,挑戰(zhàn)英偉達(dá)的云市場(chǎng)份額。
以及中國(guó)勢(shì)力的挑戰(zhàn),主要就是華為昇騰、寒武紀(jì)等國(guó)產(chǎn)芯片在政策驅(qū)動(dòng)下?lián)屨急就潦袌?chǎng),通過(guò)兼容PyTorch等框架繞過(guò)CUDA綁定。
最后是硬件架構(gòu)方面的挑戰(zhàn),尤其是RISC-V與開(kāi)源硬件架構(gòu),比如Ventana的Veyron正在催生新的開(kāi)源加速器架構(gòu),進(jìn)一步分化CUDA的硬件依賴(lài)。
2、軟件挑戰(zhàn)
英偉達(dá)的閉源屬具,讓其必然引來(lái)開(kāi)源的挑戰(zhàn),ds事件其實(shí)就是代表之一。。。
首先就是開(kāi)源編譯器的性能逼近,比如OpenAI Triton,支持Python編寫(xiě)GPU內(nèi)核,在NVIDIA GPU上性能接近CUDA,同時(shí)兼容AMD和英特爾硬件,成為CUDA的“平替”。。。再比如MLIR和LLVM生態(tài),MLIR允許跨硬件優(yōu)化,開(kāi)發(fā)者可通過(guò)單一代碼庫(kù)生成CUDA、ROCm或SYCL后端,削弱CUDA的工具鏈壟斷。
然后就是AI框架的硬件抽象化:比如PyTorch 2.0與TorchDynamo,PyTorch通過(guò)編譯器技術(shù)自動(dòng)優(yōu)化計(jì)算圖,無(wú)需手動(dòng)編寫(xiě)CUDA內(nèi)核即可實(shí)現(xiàn)高性能,降低開(kāi)發(fā)者對(duì)CUDA的依賴(lài)。再比如JAX和XLA編譯器,谷歌JAX的自動(dòng)并行化和XLA編譯技術(shù)可在TPU/GPU間無(wú)縫遷移代碼,形成獨(dú)立于CUDA的生態(tài)。
最后是跨平臺(tái)標(biāo)準(zhǔn):比如Vulkan Compute和SYCL等開(kāi)放標(biāo)準(zhǔn)支持多廠商硬件,未來(lái)可能擠壓CUDA的生存空間
3、cuda本身存在的技術(shù)瓶頸
內(nèi)存墻與通信瓶頸:GPU顯存容量和帶寬增長(zhǎng)放緩,而大模型訓(xùn)練需要TB級(jí)內(nèi)存,迫使開(kāi)發(fā)者轉(zhuǎn)向分布式計(jì)算或多芯片方案,CUDA的單卡優(yōu)化優(yōu)勢(shì)被稀釋。 。。其次是NVLink和InfiniBand的私有協(xié)議面臨UCIe(通用芯粒互聯(lián))等開(kāi)放標(biāo)準(zhǔn)的競(jìng)爭(zhēng),可能削弱NVIDIA全棧技術(shù)的協(xié)同效應(yīng)。
能效比挑戰(zhàn): 隨著摩爾定律放緩,單純依靠制程升級(jí)提升算力的模式不可持續(xù)。CUDA需在稀疏計(jì)算、混合精度等算法層創(chuàng)新,但競(jìng)爭(zhēng)對(duì)手通過(guò)架構(gòu)革新實(shí)現(xiàn)更高能效。
量子計(jì)算與神經(jīng)形態(tài)計(jì)算的長(zhǎng)期威脅:量子計(jì)算在特定領(lǐng)域的突破可能分流HPC需求。。。神經(jīng)形態(tài)芯片(如Intel Loihi)更適合脈沖神經(jīng)網(wǎng)絡(luò),這些新型計(jì)算范式與CUDA的SIMT模型不兼容。
4、市場(chǎng)及政策挑戰(zhàn)
地緣政治與供應(yīng)鏈風(fēng)險(xiǎn):美國(guó)對(duì)華高端GPU出口限制迫使中國(guó)廠商加速去CUDA化,華為昇騰的CANN和百度的PaddlePaddle正在逐漸強(qiáng)化替代性生態(tài)。。未來(lái)美國(guó)對(duì)從香港和新加坡渠道都會(huì)加強(qiáng)管理,對(duì)華ai芯片營(yíng)收占到英偉達(dá)總量的20-25%,這部分如果管制加強(qiáng),英偉達(dá)業(yè)績(jī)會(huì)受到影響。。。
云廠商的“去NVIDIA化”策略:AWS、Azure等云服務(wù)商通過(guò)自研芯片和多元化硬件方案降低對(duì)NVIDIA GPU的采購(gòu)比例,CUDA在云端的統(tǒng)治力可能被削弱。
開(kāi)發(fā)者社區(qū)的遷移成本降低:工具鏈可將CUDA代碼自動(dòng)轉(zhuǎn)換為HIP(AMD)或SYCL(Intel),遷移成本從“月級(jí)”降至“天級(jí)”,CUDA的生態(tài)鎖定效應(yīng)減弱。
英偉達(dá)也不傻,早就看到了這些威脅,因此也在cuda護(hù)城河上做出應(yīng)對(duì), 大概做了4點(diǎn)應(yīng)對(duì):
1、強(qiáng)化全棧優(yōu)勢(shì):首先是軟硬件協(xié)同設(shè)計(jì),通過(guò)Grace Hopper超級(jí)芯片通過(guò)NVLink-C2C實(shí)現(xiàn)CPU/GPU內(nèi)存一致性,提升CUDA在異構(gòu)計(jì)算中的競(jìng)爭(zhēng)力。。。。然后是,CUDA-X生態(tài)擴(kuò)展,集成更多加速庫(kù),覆蓋量子計(jì)算和科學(xué)計(jì)算等新領(lǐng)域。
2、擁抱開(kāi)放標(biāo)準(zhǔn):有限支持開(kāi)源編譯器,同時(shí)推動(dòng)NVIDIA貢獻(xiàn)標(biāo)準(zhǔn)組織(如參與MLIR開(kāi)發(fā)),避免被邊緣化。
3、搶占新興場(chǎng)景:首先是重視“邊緣計(jì)算”,通過(guò)Jetson平臺(tái)和CUDA-on-ARM支持邊緣AI,應(yīng)對(duì)ROS 2等機(jī)器人框架的異構(gòu)計(jì)算需求。。。。然后是打造數(shù)字孿生與元宇宙,Omniverse平臺(tái)依賴(lài)CUDA實(shí)現(xiàn)實(shí)時(shí)物理仿真,構(gòu)建新的技術(shù)護(hù)城河。
4、商業(yè)模式創(chuàng)新:打造CUDA-as-a-Service,通過(guò)NGC提供預(yù)訓(xùn)練模型和優(yōu)化容器,增加用戶(hù)粘性。
整體來(lái)看,由于20年技術(shù)積累,開(kāi)發(fā)者的生態(tài)黏性,以及巨大的遷移成本。。。導(dǎo)致cuda護(hù)城河當(dāng)下還比較強(qiáng)大,追的最快的就是amd,但至少3年內(nèi)英偉達(dá)cuda還是優(yōu)勢(shì)明顯。。。。但從seekingalpha等文章反饋來(lái)看,如果cuda被超越或者被追上。。。大概有2個(gè)臨界預(yù)警值:
1、技術(shù)臨界點(diǎn):當(dāng)競(jìng)爭(zhēng)對(duì)手的硬件性能超越NVIDIA且軟件生態(tài)成熟度達(dá)到80%以上。
2、經(jīng)濟(jì)臨界點(diǎn):云廠商自研芯片成本低于采購(gòu)NVIDIA GPU的30%。
所以要想投資互聯(lián)網(wǎng)或者芯片產(chǎn)業(yè),需要對(duì)于技術(shù)趨勢(shì)有深度了解,閱讀大量的資料和文獻(xiàn)。。。對(duì)于“強(qiáng)科技成長(zhǎng)”的估值尤其難,這也是巴菲特基本不碰強(qiáng)成長(zhǎng)科技股的原因 。。。美股這么貴,我旁觀。。。先積累一些知識(shí)和資料,等回調(diào)時(shí)候方便下手。。
今日話(huà)題 雪球創(chuàng)作者中心
$納斯達(dá)克綜合指數(shù)$ $英偉達(dá)(NVDA)$ $AMD(AMD)$
隨便看看:
- [熱點(diǎn)]宣統(tǒng)元寶:云南珍稀錢(qián)幣
- [熱點(diǎn)]泰州市姜堰區(qū)蔣垛鎮(zhèn):傳承紅色薪火凝聚奮進(jìn)力量
- [熱點(diǎn)]濟(jì)寧文旅亮相坦桑尼亞、尼日利亞“中國(guó)味道——大運(yùn)河美食體驗(yàn)工
- [熱點(diǎn)]廣州公寓和商鋪成交量連續(xù)4個(gè)月同比上升
- [熱點(diǎn)]向海爭(zhēng)風(fēng)傾聽(tīng)北部灣上的風(fēng)電交響曲——廣西首個(gè)海上風(fēng)電項(xiàng)目全容
- [熱點(diǎn)]前10個(gè)月天津口岸出口汽車(chē)同比增加24.6%
- [熱點(diǎn)]Commvault亞洲區(qū)副總裁MichelBorst:越來(lái)越
- [熱點(diǎn)]家族企業(yè)如何基業(yè)長(zhǎng)青?聚焦傳承與治理之道
- [熱點(diǎn)]聚焦文旅融合首旅集團(tuán)與北京演藝集團(tuán)開(kāi)啟戰(zhàn)略合作
- [熱點(diǎn)]國(guó)慶假期北京接待游客超2159萬(wàn)人次創(chuàng)歷史新高
相關(guān)推薦:
網(wǎng)友評(píng)論:
推薦使用友言、多說(shuō)、暢言(需備案后使用)等社會(huì)化評(píng)論插件
- 網(wǎng)紅經(jīng)濟(jì):數(shù)字時(shí)代的社會(huì)變革圖譜
- 迪士尼票價(jià)魔法背后的商業(yè)精算
- 球拍雙標(biāo)事件背后的國(guó)際乒壇暗流
- 趙昭儀甜蜜約會(huì)曝光:當(dāng)明星隱私撞上公眾好奇心
- 酷派回應(yīng)嘎子哥直播爭(zhēng)議 涉事手機(jī)即將正式上架
- 263斤男子豪擲2.2萬(wàn)元 9名轎夫抬滑竿征服峨眉
- 四百年星光不滅,麥蘭瑞家族如何用天然鉆石鐫刻文明傳
- 100臺(tái)電腦和500個(gè)被改變的夢(mèng)想:這才是學(xué)生領(lǐng)導(dǎo)
- 德邦快遞員180天堅(jiān)守,以專(zhuān)業(yè)服務(wù)贏得鄭州服裝市場(chǎng)
- 捍衛(wèi)企業(yè)聲譽(yù):民營(yíng)企業(yè)有權(quán)拒絕無(wú)端質(zhì)疑與不實(shí)指責(zé)
- 后浪教育室內(nèi)設(shè)計(jì)課程:培養(yǎng)新時(shí)代室內(nèi)設(shè)計(jì)專(zhuān)業(yè)人才
- 《企業(yè)合規(guī)師》證書(shū)官方報(bào)名考試流程
- 父愛(ài)如燈塔,照亮我前行的路……
- 戰(zhàn)略東西問(wèn):君智戰(zhàn)略咨詢(xún)謝偉山對(duì)話(huà)亨利·明茨伯格
- 設(shè)計(jì)教育與創(chuàng)新人才培養(yǎng):后浪教育的前瞻性探索
- 窒息
- 校園霸凌為何屢禁不止
- 巨量千川618好物節(jié)大促攻略發(fā)布,讓生意爆發(fā)更簡(jiǎn)單
- IGG鸚鵡閃耀京寵展,引領(lǐng)小寵喂養(yǎng)新風(fēng)尚
- 赴法尋跡 “美麗之源”,克麗緹娜國(guó)際化戰(zhàn)略的重要一