4月28日上午,DeepSeek多模態團隊研究員陳小康在X賬號@PKUCXK上發布了一條推文:“Soon, we see you. ?”,配圖是兩只藍色的小鯨魚,左邊那只戴著畫有“XX”的黑色眼罩,右邊那只沒戴眼罩、正常露出眼睛。盡管這條推文很快被刪除,但可能暗示DeepSeek的多模態功能即將上線。

此外,有用戶截圖顯示,chat.deepseek.com輸入框上方曾出現過三個并列的標簽——除了原有的“快速模式”和“專家模式”,還多出了一個“識圖模式”,鼠標懸停后提示“圖片理解功能內測中”。這是DeepSeek出圈以來第一次在主線產品里把視覺理解作為獨立模式呈現。不過這個標簽并不是所有用戶都能看到,目前也無法確認它是常態化的灰度內測還是短暫開放后又被回收,官方至今沒有對外說明。

根據該用戶的測試信息,在試圖模式里,用戶上傳了一張人物照片并提問“這是什么動作姿勢”。DeepSeek思考8秒后,先按位置、手臂、頭部、頭發、著裝、光影逐項拆解了畫面,再給出最終判斷:這是攝影和社交媒體語境里的“慵懶風躺姿”或“清冷氛圍感姿勢”,常出現在小紅書、抖音的“宅家”、“慵懶風”、“清冷感”等標簽下。值得注意的是,這段思考過程中有一步明確的“自我修正考慮”,模型先列出其他可能的解讀,再判斷“慵懶氛圍感姿勢”是最能涵蓋所有細節的描述,最后輸出。這種結構化拆解、自我復核加文化語境識別的組合,已經超出DeepSeek過去主線產品上的“圖片識文字”能力層次。




