創新談丨大模型既要“吃得飽”更要“吃得好”

2025-03-03 來源：科技日報

2861

前段時間，網絡上流傳著一些由大模型生成的“異次元篇章”。比如，有人讓大模型續寫《紅樓夢》情節時，竟得出一幕“賈寶玉倒拔垂楊柳”的奇景，令人啼笑皆非。之所以會出現這種“混搭”和“幻覺”，是因為大模型不僅學習了原著，還“廣納博采”了不少錯誤信息。

這些人工智能（AI）生成的“胡言亂語”雖是網友們茶余飯后的笑談，但提醒我們要清醒認識到其背后折射出的問題：數據質量是大模型應用成敗的關鍵。以個性化推薦AI系統為例，一些企業在開發過程中，雖然收集了大量的用戶行為數據，但數據中充斥著錯誤的標注、重復的數據以及相互矛盾的信息，數據的量增加了，但系統推薦的準確性并沒有顯著提升。《自然》雜志（Nature）刊登的一篇有關大模型可靠性研究的文章指出，一個西班牙研究團隊發現，包括OpenAI公司的GPT在內的幾個大模型升級后，雖然參數量更大了，誤答情況卻更嚴重了。因此，大模型長得壯不壯，不僅取決于“食量”（即數據的數量），更在于食物的“質量”（即數據的質量）——吃得飽并不等同于吃得好。

數據是大模型的基石，在數據質量不高、可靠性缺失的情況下，一味追求大模型參數量的增加，不僅無法提升模型性能，反而會放大偏差和謬誤，產生更多不可信數據。如此一來，勢必造成計算與存儲資源的浪費，增加開發和維護成本，降低用戶信任度。更為嚴重的是，這種“大模型幻覺”和“災難性遺忘”現象如果發生在精確性要求極高的工業生產領域中，還可能引發不可預測的風險和隱患。以油氣勘探為例，基于大模型給出的錯誤預測進行開采可能導致數億元的資金損失，并對自然環境造成不可逆轉的破壞。

提升大模型性能，關鍵是處理好數據“質”和“量”的關系，構建大規模、高質量的數據集。應建立完善的數據收集、清洗、驗證和存儲機制，加強對數據質量的監控和評估，確保數據的準確性、完整性和一致性。此外，還應注重跨領域合作，引入數據科學家、AI算法工程師等多方力量，開展大模型算法合作、制定數據共享和隱私安全保密協議，推動大模型產學研用生態建設。

如今，大模型的發展已邁入多模態融合階段。通過加強數據治理，優化人工智能學習、訓練和驗證的“基礎食材”，端上大規模、高質量、多模態數據集的“豐盛大餐”，必將助力大模型能力的提升，讓人工智能更好地賦能千行百業、造福人類社會。

（作者系中國工程院院士、中國石油勘探開發研究院教授級高級工程師）

行業動態

尊界S800連續5個月奪百萬級豪車銷冠

AMD參與投資，美國光芯片公司Ayar Labs完成5億美元E輪融資

【IPO一線】牛芯半導體正式啟動上市輔導深耕半導體領域打造核心競爭力

熱讀文章

苗圩出席統籌推進疫情防控和產業轉型升級促進制造業通信業穩定發展發布會

一圖讀懂2020年《政府工作報告》

工業富聯：擬7763萬美元收購鴻海精密美國子公司相關資產