近日,DeepSeek開始灰度測(cè)試識(shí)圖模式,并大范圍開放給用戶體驗(yàn)。
在具體的實(shí)測(cè)體驗(yàn)中,開啟該模式后,用戶可以直接上傳圖片讓DeepSeek“看”世界,其能力邊界遠(yuǎn)超簡單的文字提取。比如,網(wǎng)友上傳在博物館拍攝的不明文物并開啟“深度思考”后,模型不僅詳細(xì)描述該文物紋理材質(zhì),還準(zhǔn)確推斷出其年代風(fēng)格;面對(duì)時(shí)下流行的表情包或梗圖,它也能準(zhǔn)確理解。
DeepSeek“開眼”,與其他主流大模型有何能力差異?有哪些優(yōu)勢(shì)和不足?記者就此采訪了有關(guān)專家。
第一問:DeepSeek識(shí)圖模式與豆包等其他大模型有何區(qū)別?
“與其他大模型相比,DeepSeek識(shí)圖模式的核心區(qū)別集中在技術(shù)路徑、算力消耗和交互邏輯上。”賽迪顧問人工智能與大數(shù)據(jù)研究中心分析師白潤軒說。
他解釋道,DeepSeek識(shí)圖模式以“視覺原語思考”為核心。這一核心框架主打精準(zhǔn)空間推理和復(fù)雜場(chǎng)景解析,而非單純的文字OCR(光學(xué)字符識(shí)別)或基礎(chǔ)識(shí)別。而豆包等模型更側(cè)重結(jié)合聯(lián)網(wǎng)搜索提升識(shí)別時(shí)效性,多依賴傳統(tǒng)圖像編碼后進(jìn)行文本理解,空間推理精度稍弱。
同時(shí),這一框架在實(shí)際運(yùn)行中“算力友好”。白潤軒介紹,DeepSeek處理800×800分辨率圖片僅消耗約90個(gè)tokens(詞元),遠(yuǎn)低于GPT等主流模型,響應(yīng)速度更快。
此外,DeepSeek識(shí)圖模式為獨(dú)立入口,專注純視覺理解,不額外啟用聯(lián)網(wǎng)功能,而豆包等大模型會(huì)自動(dòng)聯(lián)動(dòng)搜索。
第二問:“視覺原語思考”的核心創(chuàng)新點(diǎn)在哪?
伴隨識(shí)圖模式的上線,DeepSeek還公開了其背后的多模態(tài)模型技術(shù)細(xì)節(jié),并公布了“視覺原語思考”核心框架。
“這一框架的核心創(chuàng)新點(diǎn)在于跳出主流模型‘堆分辨率’的思路,聚焦解決傳統(tǒng)多模態(tài)模型的‘指代鴻溝’困境?!卑诐欆幗忉尅?/p>
傳統(tǒng)多模態(tài)大模型在面對(duì)密集場(chǎng)景時(shí)存在一種名為“指代鴻溝”的困境,模型雖然能看見圖片,但在推理過程中用“左邊那個(gè)大的”等模糊的自然語言構(gòu)建邏輯鏈時(shí),很容易因描述不準(zhǔn)導(dǎo)致注意力漂移。
而“視覺原語思考”框架將點(diǎn)、邊界框等空間視覺元素作為“思維”基本單元,融入模型推理全過程,這就像給模型裝上了一根“賽博手指”,讓AI在推理時(shí)能在“腦?!敝芯_指出目標(biāo)物,邊想邊指,大幅提升復(fù)雜空間布局、密集計(jì)數(shù)等場(chǎng)景的推理精度。
第三問:目前存在的不足及改進(jìn)方向是什么?
在白潤軒看來,DeepSeek識(shí)圖模式目前主要存在三項(xiàng)不足。
一是知識(shí)庫更新偏滯后。其模型訓(xùn)練數(shù)據(jù)截至2025年,識(shí)別2025年底后發(fā)布的新型產(chǎn)品易出現(xiàn)型號(hào)誤判。
二是高難度場(chǎng)景表現(xiàn)還不穩(wěn)定。面對(duì)視錯(cuò)覺圖片、復(fù)雜物體計(jì)數(shù)等反直覺任務(wù)時(shí),模型給出的答案穩(wěn)定性不足,偶發(fā)邏輯崩潰。
三是功能邊界較窄。目前僅支持純視覺理解,暫不具備圖像生成、視頻理解及跨模態(tài)創(chuàng)作能力,且高并發(fā)時(shí)段偶有解析失敗、響應(yīng)延遲的情況。
“建議后續(xù)加快知識(shí)庫迭代、優(yōu)化反直覺場(chǎng)景算法;同時(shí)拓展多模態(tài)功能,進(jìn)一步提升系統(tǒng)穩(wěn)定性以適配更多用戶的需求。”白潤軒說。
據(jù)科技日?qǐng)?bào)
(責(zé)任編輯:梁艷)