NVIDIA新模型DAM

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點擊進來看看。  

4 月 24 日消息, 科技 媒體 marktechpost 昨日(4 月 23 日)發(fā)布博文,報道稱英偉達為應(yīng)對圖像和視頻中特定區(qū)域的詳細(xì)描述難題, 最新推出了 Describe Anything 3B(DAM-3B)AI 模型

視覺-語言模型(VLMs)在生成整體圖像描述時表現(xiàn)出色,但對特定區(qū)域的細(xì)致描述往往力不從心,尤其在視頻中需考慮時間動態(tài),挑戰(zhàn)更大。

英偉達推出的 Describe Anything 3B(DAM-3B)直面這一難題,支持用戶通過點、邊界框、涂鴉或掩碼指定目標(biāo)區(qū)域,生成精準(zhǔn)且貼合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分別適用于靜態(tài)圖像和動態(tài)視頻,模型已在 Hugging Face 平臺公開。

獨特架構(gòu)與高效設(shè)計

DAM-3B 的核心創(chuàng)新在于“焦點提示”和“局部視覺骨干網(wǎng)絡(luò)”。

NVIDIA新模型DAM

焦點提示技術(shù)融合了全圖信息與目標(biāo)區(qū)域的高分辨率裁剪,確保細(xì)節(jié)不失真,同時保留整體背景。

局部視覺骨干網(wǎng)絡(luò)則通過嵌入圖像和掩碼輸入,運用門控交叉注意力機制,將全局與局部特征巧妙融合,再傳輸至大語言模型生成描述。

DAM-3B-Video 進一步擴展至視頻領(lǐng)域,通過逐幀編碼區(qū)域掩碼并整合時間信息,即便面對遮擋或運動也能生成準(zhǔn)確描述。

數(shù)據(jù)與評估雙管齊下

為解決訓(xùn)練數(shù)據(jù)匱乏問題,NVIDIA 開發(fā)了 DLC-SDP 半監(jiān)督數(shù)據(jù)生成策略,利用分割數(shù)據(jù)集和未標(biāo)注的網(wǎng)絡(luò)圖像,構(gòu)建了包含 150 萬局部描述樣本的訓(xùn)練語料庫。

NVIDIA新模型DAM

通過自訓(xùn)練方法優(yōu)化描述質(zhì)量,確保輸出文本的高精準(zhǔn)度,團隊同時推出 DLC-Bench 評估基準(zhǔn),以屬性級正確性而非僵硬的參考文本對比衡量描述質(zhì)量。

NVIDIA新模型DAM

DAM-3B 在包括 LVIS、Flickr30k Entities 等七項基準(zhǔn)測試中領(lǐng)先,平均準(zhǔn)確率達 67.3%,超越 GPT-4o 和 VideoRefer 等模型。

DAM-3B 不僅填補了局部描述領(lǐng)域的技術(shù)空白,其上下文感知架構(gòu)和高質(zhì)量數(shù)據(jù)策略還為無障礙工具、機器人技術(shù)及視頻內(nèi)容分析等領(lǐng)域開辟了新可能。

【來源: IT之家

本文被轉(zhuǎn)載1次

首發(fā)媒體 砍柴網(wǎng) | 轉(zhuǎn)發(fā)媒體

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
精品无人区一区二区三区| 亚洲精品无码专区在线播放| 日本精品啪啪一区二区三区| 华人在线精品免费观看| 99在线精品国自产拍中文字幕| 亚洲av专区无码观看精品天堂 | 亚洲Av永久无码精品黑人| 国产精品免费久久久久电影网| 99久久99久久精品免费观看| 精品人妻一区二区三区四区| 91大神在线精品视频一区| 凹凸国产熟女精品视频app| 精品乱码一区二区三区四区| 嫩B人妻精品一区二区三区| 99视频在线精品免费观看6| 福利姬在线精品观看| 91精品视频在线| 久久99国产精品久久99果冻传媒| 国产精品无码一区二区三区在| ...91久久精品一区二区三区| 成人区人妻精品一区二区不卡网站| 久久我们这里只有精品国产4| 国产精品亚洲va在线观看 | 精品久久久久久亚洲精品| 99热这里只有精品在线| 国产精品一卡二卡三卡| 97视频在线观看这里只有精品| 国产成人精品日本亚洲语音 | 国产精品乱码一区二区三区| 国产精品人人妻人人爽| 亚洲制服丝袜精品久久| 久久精品视频16| 国产在线精品一区免费香蕉| 国产精品漂亮美女在线观看| 亚洲精品美女网站| freesexvideos精品老师毛多| 国产成人精品免费久久久久| 九九精品在线视频| 2021最新国产成人精品视频| 久久线看观看精品香蕉国产| 国内大量揄拍人妻精品視頻|