云天勵飛公布大算力芯片戰略：目標把百萬 Tokens 推理成本降低 100 倍以上

2026-02-05 來源：云天勵飛

342

2月3日，云天勵飛正式舉辦“大算力芯片戰略前瞻會”，首次對外公布未來三年的大算力 AI 推理芯片戰略布局。

會上，云天勵飛提出“訓練追趕、推理超車”的戰略方向，并發布了基于“PD 分離”思路的芯片路線圖：力爭實現百萬 Tokens 推理成本降低 100 倍以上的目標，推動 AI 從技術嘗鮮走向普惠生產力。

云天勵飛董事長兼CEO陳寧博士發表演講

戰略方向：訓練追趕，推理超車

云天勵飛董事長兼 CEO 陳寧博士在會上指出，訓練芯片與推理芯片在算力需求上存在顯著差異。訓練芯片更側重“絕對值”，對算力規模、帶寬能力以及科學計算的復雜精度要求更高，且對成本相對不敏感；推理芯片的核心考量則在于成本、效率與市場經濟學，關鍵在于每一個 Token 背后的邊際成本與整體性價比。

陳寧表示，公司致力于持續降低百萬 Token 的成本，目標是通過下一代芯片實現“百萬 Tokens 一分錢”。未來三年，公司希望將成本進一步降至“百萬 Tokens 0.1分錢”，以加速大模型應用的規?；涞?。

對于未來五年的中國芯片產業發展，陳寧提出“訓練追趕、推理超車”的策略：在訓練芯片領域，目標是持續追趕，盡量保持差距不被拉大；而在推理芯片領域，依托中國豐富的應用場景、強大的基礎設施能力以及開源模型生態，有機會實現突破與超車。

云天勵飛董事長兼CEO陳寧博士發表演講

基于“PD 分離”架構，三年規劃三代芯片

針對大模型時代云推理場景的需求，云天勵飛 CTO 李愛軍在會上介紹了公司的技術解構與路線圖。

他表示，云天勵飛將全力投入云推理場景的大算力芯片研發，基于對大模型推理計算特征的理解，按照“PD 分離”的系統架構規劃兩類大算力芯片：

李愛軍介紹，公司在芯片微架構層面針對 Attention 及 AFN 等計算特點進行細粒度分析，并在底層實現針對性優化。在一個包含 1024 顆芯片的超節點內，P 芯片與 D 芯片可實現有效組合，以滿足大模型云推理的集群化部署需求。

云天勵飛CTO李愛軍介紹公司芯片產品規劃

未來三年，云天勵飛規劃了三代芯片產品：

今年（第一年）：打造第一代超節點 P 芯片，面向百萬級長上下文場景進行 Prefill 推理優化，算力水平對標 Hopper 架構；
明年（第二年）：研發第一代超節點 D 芯片，聚焦 Decode 推理的低時延目標，算力水平對標 Blackwell 架構；
2028 年（第三年）：推出第二代超節點 D 芯片，面向毫秒級推理時延目標進一步優化，帶動 Prefill 與 Decode 性能提升，算力層面有望看齊下一代 Rubin 芯片。

云天勵飛高級副總裁、CFO兼董秘鄧浩然介紹公司資本、人才與產能情況

GPNPU 架構的四大技術亮點

李愛軍表示，上述路線圖的核心支撐是云天勵飛的 GPNPU 架構。GPNPU 不僅是處理器架構，也體現了對大模型推理系統架構的整體理解，其主要技術亮點包括四個方面：

GPGPU 級通用編程能力（CUDA 兼容）：面向國內芯片“易用性”痛點，GPNPU 架構強調對主流 CUDA 等生態的兼容與遷移支持，以降低客戶模型部署與遷移門檻；
極致能效的 NPU 內核：圍繞推理效率與能效比進行深度優化，提升推理側性價比；
引入 3D Memory 結構：采用 3D Memory 結構，以獲得更高帶寬與更低訪問時延，提升推理效率；
算力積木架構：公司延續過去五年在國產工藝上的探索，以“算力積木”架構定義下一代芯片的 Scale-up 超節點，以滿足萬億級乃至十萬億級 MoE 架構大模型的推理需求。

推理時代的競爭，本質是“單位推理成本”的競爭。只有把推理做得足夠便宜、足夠穩定、足夠易用，AI 才能從“看得見的能力”走向“用得起的生產力”。

未來，云天勵飛將以 GPNPU 架構為核心，大力推進云端大算力芯片，強化軟硬協同與存儲體系攻堅，力爭將百萬 Tokens 推理成本降低 100 倍以上，推動大模型從示范應用走向規?；桓?。

行業動態

尊界S800連續5個月奪百萬級豪車銷冠

AMD參與投資，美國光芯片公司Ayar Labs完成5億美元E輪融資

【IPO一線】牛芯半導體正式啟動上市輔導深耕半導體領域打造核心競爭力

熱讀文章

苗圩出席統籌推進疫情防控和產業轉型升級促進制造業通信業穩定發展發布會

一圖讀懂2020年《政府工作報告》

工業富聯：擬7763萬美元收購鴻海精密美國子公司相關資產