NVIDIA新模型DAM

砍柴網(wǎng) ? 4月前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個廣告，點擊進來看看。

4 月 24 日消息，科技媒體 marktechpost 昨日（4 月 23 日）發(fā)布博文，報道稱英偉達為應(yīng)對圖像和視頻中特定區(qū)域的詳細(xì)描述難題， 最新推出了 Describe Anything 3B（DAM-3B）AI 模型 。

視覺-語言模型（VLMs）在生成整體圖像描述時表現(xiàn)出色，但對特定區(qū)域的細(xì)致描述往往力不從心，尤其在視頻中需考慮時間動態(tài)，挑戰(zhàn)更大。

英偉達推出的 Describe Anything 3B（DAM-3B）直面這一難題，支持用戶通過點、邊界框、涂鴉或掩碼指定目標(biāo)區(qū)域，生成精準(zhǔn)且貼合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分別適用于靜態(tài)圖像和動態(tài)視頻，模型已在 Hugging Face 平臺公開。

獨特架構(gòu)與高效設(shè)計

DAM-3B 的核心創(chuàng)新在于“焦點提示”和“局部視覺骨干網(wǎng)絡(luò)”。

NVIDIA新模型DAM

焦點提示技術(shù)融合了全圖信息與目標(biāo)區(qū)域的高分辨率裁剪，確保細(xì)節(jié)不失真，同時保留整體背景。

局部視覺骨干網(wǎng)絡(luò)則通過嵌入圖像和掩碼輸入，運用門控交叉注意力機制，將全局與局部特征巧妙融合，再傳輸至大語言模型生成描述。

DAM-3B-Video 進一步擴展至視頻領(lǐng)域，通過逐幀編碼區(qū)域掩碼并整合時間信息，即便面對遮擋或運動也能生成準(zhǔn)確描述。

數(shù)據(jù)與評估雙管齊下

為解決訓(xùn)練數(shù)據(jù)匱乏問題，NVIDIA 開發(fā)了 DLC-SDP 半監(jiān)督數(shù)據(jù)生成策略，利用分割數(shù)據(jù)集和未標(biāo)注的網(wǎng)絡(luò)圖像，構(gòu)建了包含 150 萬局部描述樣本的訓(xùn)練語料庫。

NVIDIA新模型DAM