4月30日,DeepSeek在Github上正式發布了多模態模型,并公布了背后的技術報告。技術報告中提到,盡管多模態大語言模型取得了顯著進展,但主流的思維鏈范式仍主要局限于語言學領域。近期研究雖然通過高分辨率裁剪技術來彌合感知鴻溝,卻忽視了一個更根本的問題:參照鴻溝。自然語言的模糊性往往無法為復雜的空間布局提供精確、明確的指引,導致需要嚴謹參照的任務出現邏輯崩潰。
DeepSeek的多模態技術報告提出基于視覺原語的思考——這一創新推理框架將點、邊界框等空間標記提升為“思維的基本單元”。通過將這些視覺原語直接融入思考過程,模型在“推理”時能夠“指代”,從而將其認知軌跡有效錨定在圖像的物理坐標中。
技術報告還指出,該框架基于高度優化的架構,具備極高的視覺標記效率。盡管模型規模緊湊且圖像標記預算較低,DeepSeek的多模態模型在具有挑戰性的計數和空間推理基準測試上,能夠與GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash等前沿模型匹配。這為開發更高效、更具可擴展性的System-2類多模態智能提供了新的方向。




