DeepSeek整頓AI圈，GPU增長(zhǎng)焦慮如何解？

2025-02-17 來源：電子信息產(chǎn)業(yè)網(wǎng)

1842

價(jià)格親民的DeepSeek-V3及R1分別在2024年12月和2025年1月上線，隨之而來，全球最大數(shù)據(jù)中心GPU供應(yīng)商英偉達(dá)的股價(jià)和市值應(yīng)聲下挫。根據(jù)Stock Analysis數(shù)據(jù)，以月為單位，英偉達(dá)市值在2024年12月和2025年1月分別下降2.86%和10.59%。當(dāng)?shù)貢r(shí)間1月27日，英偉達(dá)股價(jià)較上一個(gè)交易日（1月24日）下跌近17%，市值蒸發(fā)5920億美元。

盡管2月英偉達(dá)市值回調(diào)，其股市際遇仍值得警醒。2024年以來，資本市場(chǎng)對(duì)英偉達(dá)信心滿滿，上一次市值跌去雙位數(shù)，還是2023年9月。去年11月，英偉達(dá)一度取代蘋果成為全球市值第一的上市公司。這份信心，為何出現(xiàn)了動(dòng)搖？

在OpenAI推出的ChatGPT卷起AIGC浪潮之初，大模型的參數(shù)規(guī)模與GPU的集群規(guī)模深度綁定。Omdia分析稱，微軟在2024年購(gòu)買了48.5萬(wàn)塊英偉達(dá)Hopper GPU，OpenAI o1大模型就是在微軟Azure的AI基礎(chǔ)設(shè)施訓(xùn)練。Meta在2022年構(gòu)建了16000塊英偉達(dá)A100組成的算力集群，以支持Llama和Llama2大模型的發(fā)展，又在2024年3月宣布建設(shè)兩個(gè)由24576塊英偉達(dá)H100 GPU組成的集群，以訓(xùn)練Llama3。

如此高昂的訓(xùn)練成本，對(duì)于大模型廠商的ROI（投資回報(bào)率）是一個(gè)巨大的考驗(yàn)。有報(bào)道稱，OpenAI預(yù)計(jì)2024年?duì)I收37億美元，虧損50億美元。紅杉資本投資人曾估計(jì)，2023年人工智能行業(yè)在用于訓(xùn)練先進(jìn)人工智能模型的英偉達(dá)芯片上花費(fèi)了500億美元，但僅帶來30億美元的收入。因而，對(duì)于大模型開發(fā)商來說，除了拓展服務(wù)場(chǎng)景以提升盈利能力，如何降低大模型的訓(xùn)練和部署成本同樣關(guān)鍵。

這也是為什么DeepSeek-V3一經(jīng)推出，就備受市場(chǎng)青睞——它讓業(yè)界看到了大模型訓(xùn)練從“GPU堆料”走向“精耕細(xì)作”的可能性。

具體來看，6710億參數(shù)的DeepSeek-V3在配備2048塊英偉達(dá)H800 GPU的集群上訓(xùn)練，整個(gè)訓(xùn)練流程用時(shí)278.8萬(wàn)個(gè)H800 GPU小時(shí)，總成本為557.6萬(wàn)美元（按照每GPU小時(shí)2美元的租用價(jià)格計(jì)算）。在GPU用量、訓(xùn)練用時(shí)、算力成本上，較同等性能的閉源模型大幅縮減。

之所以能用如此少量的計(jì)算資源完成大規(guī)模參數(shù)量的訓(xùn)練，得益于DeepSeek團(tuán)隊(duì)對(duì)算法、訓(xùn)練框架和硬件的優(yōu)化協(xié)同。

從架構(gòu)來看，DeepSeek-V3沿用了在DeepSeek-V2進(jìn)行驗(yàn)證的多頭潛在注意力（MLA）和DeepSeek MoE進(jìn)行具有成本效益的訓(xùn)練。多頭潛在注意力機(jī)制通過將鍵值（KV）緩存壓縮為潛在向量，顯著降低了計(jì)算成本，加快了推理速度并提高了吞吐量。同時(shí)，專家混合（MoE）架構(gòu)通過稀疏計(jì)算實(shí)現(xiàn)高效推理。

在訓(xùn)練精度上，Deepseek-V3支持FP8計(jì)算和存儲(chǔ)，在加快訓(xùn)練速度的同時(shí)，減少了對(duì)GPU內(nèi)存的使用。

在訓(xùn)練框架上，Deepseek-V3團(tuán)隊(duì)打造了HAI-LLM框架，并進(jìn)行了細(xì)致的工程優(yōu)化。首先是設(shè)計(jì)了DualPipe（雙管道）算法以實(shí)現(xiàn)高效的管道并行，并實(shí)現(xiàn)了計(jì)算和通信重疊（而不是按照串行模式，完成計(jì)算再進(jìn)行通信），從而解決了跨節(jié)點(diǎn)專家并行帶來的巨大通信開銷問題。其次是開發(fā)了跨節(jié)點(diǎn)全對(duì)全通信內(nèi)核，使InfiniBand（IB）和NVLink的通信充分重疊，僅需20個(gè)流式多處理器就能充分利用IB和NVLink的帶寬。其三是優(yōu)化了內(nèi)存占用，在不使用成本高昂的張量并行的情況下，也能夠訓(xùn)練DeepSeek-V3。

訓(xùn)練成本的壓縮，使DeepSeek能夠提供遠(yuǎn)低于其對(duì)標(biāo)的閉源模型（DeepSeek-V3性能比肩GPT-4o, DeepSeek-R1性能對(duì)標(biāo)OpenAI o1）的API服務(wù)價(jià)格。

記者計(jì)算得知，DeepSeek-V3的每百萬(wàn)輸入tokens價(jià)格約為GPT-4o的5.5%（緩存命中）/11%（緩存未命中），每百萬(wàn)輸出tokens價(jià)格約為GPT-4o的11%。DeepSeek-R1的每百萬(wàn)輸入tokens價(jià)格約為OpenAI o1的1.8%（緩存命中）/3.7%（緩存未命中），每百萬(wàn)輸出tokens價(jià)格約為OpenAI o1的3.7%。

DeepSeek與對(duì)標(biāo)的OpenAI模型API價(jià)格對(duì)比

undefined

來源：中國(guó)電子報(bào)根據(jù)DeepSeek、OpenAI官網(wǎng)報(bào)價(jià)整理，以2月14日匯率為準(zhǔn)

GPU規(guī)格和用量降下來了，大模型價(jià)格也便宜了，這對(duì)于產(chǎn)業(yè)界來說是一個(gè)好消息，對(duì)于尖端GPU廠商來說，則帶有一些不確定性。

首先，云廠商和數(shù)據(jù)中心廠商在過去兩年“買爆”英偉達(dá)，很大程度上是為大模型的訓(xùn)練、部署和運(yùn)行提供基礎(chǔ)設(shè)施，可一旦MoE、小模型等更具成本效益的模型流行開來，頭部買家能否持續(xù)現(xiàn)有的GPU采購(gòu)量，要打一個(gè)問號(hào)。

其次，大模型訓(xùn)練使用的GPU向來由英偉達(dá)獨(dú)占鰲頭，但若算力投入不再高企，其他廠商也有了分一杯羹的機(jī)會(huì)。目前，龍芯中科、昆侖芯、燧原科技、華為昇騰、海光信息、天數(shù)智芯、奕斯偉等多家國(guó)產(chǎn)芯片企業(yè)宣布與DeepSeek適配。

再次，降低訓(xùn)練開銷的可能性，也讓廣大GPU買家開始將目光轉(zhuǎn)向其他架構(gòu)——尤其是自家研發(fā)的ASIC芯片，以增加硬件收入、增強(qiáng)云服務(wù)的整體性并提升客戶粘性。

以全球最大的云服務(wù)廠商亞馬遜AWS為例，2月12日，亞馬遜AWS宣布已于1月上線DeepSeek系列大模型，用戶可以使用亞馬遜云科技自研芯片Trainium和Inferentia通過Amazon EC2或者Amazon SageMaker部署DeepSeek-R1蒸餾模型，規(guī)模從15億參數(shù)的Qwen蒸餾模型到706億參數(shù)的Llama蒸餾模型不等。亞馬遜自研芯片的一個(gè)重要目標(biāo)就是降低訓(xùn)練成本，與基于GPU的同類實(shí)例相比，Trainium芯片支持的Amazon EC2Trn1實(shí)例，可節(jié)省50%的訓(xùn)練成本。

OpenAI也在近期再傳自研芯片的消息。據(jù)悉，OpenAI將在年內(nèi)完成首款自研芯片設(shè)計(jì)，計(jì)劃采用臺(tái)積電3nm工藝制造。

此外，LPU（語(yǔ)言處理器）受到市場(chǎng)關(guān)注，采用RISC-V指令集的AI SoC也實(shí)現(xiàn)了與DeepSeek的適配。

當(dāng)然，也有觀點(diǎn)認(rèn)為，DeepSeek對(duì)算力產(chǎn)業(yè)是長(zhǎng)期利好。

比如，在英偉達(dá)市值蒸發(fā)5920億美元的那個(gè)交易日，微軟CEO薩提亞·納德拉（Satya Nadella）在社交媒體平臺(tái)表示：“杰文斯悖論再次應(yīng)驗(yàn)！隨著人工智能變得更高效、更易用，我們會(huì)看到其使用量急劇飆升，它會(huì)變成一種我們?cè)趺炊加貌粔虻拇蟊娰Y源。”

杰文斯悖論是一種經(jīng)濟(jì)學(xué)理論，主張當(dāng)技術(shù)進(jìn)步提高了資源使用的效率，即減少資源使用的數(shù)量，但成本降低導(dǎo)致需求增加，令資源消耗的速度不減反增。

這套邏輯，當(dāng)然也適用于算力。既然DeepSeek等MoE模型降低了單個(gè)大模型訓(xùn)練所需的算力開銷，使大模型更具性價(jià)比，就會(huì)加速大模型的落地開花。如果各行各業(yè)部署大模型的積極性提升，從長(zhǎng)遠(yuǎn)來看，對(duì)算力的整體需求就有較為充足的上升空間，自然利好GPU等算力芯片的發(fā)展。

只是這杯羹，不一定再由英偉達(dá)的尖端GPU獨(dú)占，算力需求帶來的利潤(rùn)洪流，也未必再被CUDA這道大壩截留。

在DeepSeek-V3的技術(shù)報(bào)告中，DeepSeek團(tuán)隊(duì)向人工智能硬件供應(yīng)商提出了芯片設(shè)計(jì)建議，包括提高張量核心中FP8通用矩陣乘法的累加精度、支持分塊和塊級(jí)量化等。對(duì)于芯片企業(yè)來說，除了持續(xù)提升芯片性能，能夠與大模型開發(fā)團(tuán)隊(duì)進(jìn)行緊密協(xié)作、將工程化做好做精，會(huì)更有機(jī)會(huì)在“效率至上”的訓(xùn)練競(jìng)賽中站到前排。

相關(guān)文章

行業(yè)動(dòng)態(tài)

尊界S800連續(xù)5個(gè)月奪百萬(wàn)級(jí)豪車銷冠

AMD參與投資，美國(guó)光芯片公司Ayar Labs完成5億美元E輪融資

【IPO一線】牛芯半導(dǎo)體正式啟動(dòng)上市輔導(dǎo) 深耕半導(dǎo)體領(lǐng)域打造核心競(jìng)爭(zhēng)力

熱讀文章

苗圩出席統(tǒng)籌推進(jìn)疫情防控和產(chǎn)業(yè)轉(zhuǎn)型升級(jí)促進(jìn)制造業(yè)通信業(yè)穩(wěn)定發(fā)展發(fā)布會(huì)

一圖讀懂2020年《政府工作報(bào)告》

工業(yè)富聯(lián)：擬7763萬(wàn)美元收購(gòu)鴻海精密美國(guó)子公司相關(guān)資產(chǎn)