DeepSeek-OCR 2發(fā)布：讓AI像人一樣“讀懂”復(fù)雜文檔

2026-01-28 來源：鳳凰網(wǎng)

324

1月27日，DeepSeek團(tuán)隊發(fā)布《DeepSeek-OCR 2: Visual Causal Flow》論文，并開源DeepSeek-OCR 2模型。

該模型采用創(chuàng)新的DeepEncoder V2新型編碼器結(jié)構(gòu)，它能夠根據(jù)圖像語義動態(tài)調(diào)整視覺信息的處理順序，使模型在進(jìn)行文字識別前先對視覺內(nèi)容進(jìn)行智能排序。這項技術(shù)突破源于對傳統(tǒng)視覺語言模型處理方式的重新思考，旨在讓機(jī)器更貼近人類的視覺閱讀邏輯。

在傳統(tǒng)的視覺語言模型中，圖像通常會被切分為若干視覺token，并按照從左上到右下的固定柵格順序送入模型處理。這種方式雖然實現(xiàn)簡單，但與人類在閱讀文檔、表格或公式時基于語義和邏輯關(guān)系進(jìn)行跳躍式瀏覽的方式并不一致。

DeepSeek論文指出，尤其在版式復(fù)雜的文檔場景中，視覺元素之間往往存在明確的邏輯先后關(guān)系，僅依賴空間順序可能限制模型對內(nèi)容結(jié)構(gòu)的理解能力。

為驗證模型性能，研究團(tuán)隊在OmniDocBench v1.5基準(zhǔn)上進(jìn)行了全面評估。該基準(zhǔn)涵蓋多種類型的中英文文檔，包括學(xué)術(shù)論文、雜志、報告等，重點考察文本識別、公式解析、表格結(jié)構(gòu)還原以及閱讀順序等指標(biāo)。

測試結(jié)果顯示，在視覺token上限更低的情況下，DeepSeek-OCR 2的整體得分達(dá)到91.09%，相較DeepSeek-OCR提升了3.73%。特別是在閱讀順序準(zhǔn)確度方面，編輯距離從0.085降至0.057，表明新模型能夠更合理地理解文檔內(nèi)容結(jié)構(gòu)。

相關(guān)文章

行業(yè)動態(tài)

雙龍頭漲停！英偉達(dá)又發(fā)酵了A股新題材！

航天智造2025年營收突破90億元，凈利潤同比增長11.24%

三星發(fā)布下一代DRAM原型，“4F2”架構(gòu)突破物理極限

熱讀文章

苗圩出席統(tǒng)籌推進(jìn)疫情防控和產(chǎn)業(yè)轉(zhuǎn)型升級促進(jìn)制造業(yè)通信業(yè)穩(wěn)定發(fā)展發(fā)布會

一圖讀懂2020年《政府工作報告》

工業(yè)富聯(lián)：擬7763萬美元收購鴻海精密美國子公司相關(guān)資產(chǎn)