騰訊胡文博：引領(lǐng) 3D 視頻世界模型新趨勢丨GAIR 2025

雷鋒網(wǎng) ? 3天前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來看看。

2025年 12 月 12-13 日，由 GAIR 研究院與雷峰網(wǎng)聯(lián)合主辦的「第八屆 GAIR 全球人工智能與機(jī)器人大會(huì)」，將在深圳南山·博林天瑞喜來登酒店舉辦。

今年大會(huì)，將開設(shè)三個(gè)主題論壇，聚焦大模型、算力變革、世界模型等多個(gè)議題，描繪 AI 最前沿的探索群像，折射學(xué)界與產(chǎn)業(yè)界共建的智能未來。

騰訊 ARC 實(shí)驗(yàn)室高級研究員胡文博也將蒞臨 12 月 13 日《世界模型》論壇，帶來《Towards 3D-aware Video World Models 》（《邁向三維感知的視頻世界模型》）的主題分享。

過去一年多，Sora為代表的視頻生成模型，成為繼大語言模型（LLM）后新的學(xué)術(shù)熱點(diǎn)。本質(zhì)上講，當(dāng)下火爆的視頻生成模型，是一種世界模型，其核心目的是生成一段逼真、連貫的視頻。

要達(dá)到這樣的目的，模型必須在一定程度上理解這個(gè)世界的運(yùn)作方式（比如水往低處流、物體碰撞后的運(yùn)動(dòng)、人的合理動(dòng)作等）。

胡文博正是世界模型研究領(lǐng)域近兩年的絕對新銳。

2022年，胡文博獲得香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程博士學(xué)位。至今，胡文博已經(jīng)在圖形學(xué)和視覺國際期刊和會(huì)議發(fā)表20余篇論文。

深耕視頻生成模型，Tri-MipR一鳴驚人

1996年出生的胡文博已經(jīng)在世界模型領(lǐng)域深耕數(shù)年。

2018年，胡文博從大連理工大學(xué)畢業(yè)，還獲得了遼寧省優(yōu)秀畢業(yè)生的殊榮。對計(jì)算機(jī)充滿熱忱的胡文博并沒有選擇直接工作，而是奔赴香港中文大學(xué)攻讀計(jì)算機(jī)博士學(xué)位。

求學(xué)期間，胡文博曾先后在大疆、阿里巴巴達(dá)摩院、騰訊等知名企業(yè)實(shí)習(xí)。

2022年后，從香港中文大學(xué)博士畢業(yè)的胡文博，選擇加入字節(jié)跳動(dòng)PICO混合現(xiàn)實(shí)團(tuán)隊(duì)，擔(dān)任研究員。也是這一階段，胡文博發(fā)表了《Tri-MipRF: Tri-Mip Representation for Efficient Anti-Aliasing Neural Radiance Fields》（以下簡稱《Tri-MipRF》）。這篇論文受到極大關(guān)注，入圍ICCV'2023最佳論文決賽，并榮獲CVPR'2025 PixFoundation研討會(huì)最佳論文獎(jiǎng).

雷峰網(wǎng)了解到，《Tri-MipRF》提出一種新穎的Tri-Mip編碼（類似于“mipmap”），即Tri-MipRF，實(shí)現(xiàn)神經(jīng)輻射場的即時(shí)重建和抗鋸齒高保真渲染。

《Tri-MipRF》指出，盡管神經(jīng)輻射場 (NeRF) 取得了巨大的進(jìn)步，但我們?nèi)匀幻媾R著質(zhì)量和效率之間的權(quán)衡困境。MipNeRF 可以呈現(xiàn)精細(xì)的細(xì)節(jié)和抗鋸齒的渲染效果，但訓(xùn)練需要數(shù)天時(shí)間； Instant-ngp 可以在幾分鐘內(nèi)完成重建，卻忽略了采樣區(qū)域，在渲染時(shí)會(huì)出現(xiàn)模糊或鋸齒。

Tri-MipRF的關(guān)鍵在于將預(yù)濾波后的3D特征空間分解為三個(gè)正交的mipmap。這樣就可以利用預(yù)濾波后的2D特征圖高效地進(jìn)行3D區(qū)域采樣，從而在不犧牲效率的前提下顯著提升渲染質(zhì)量。《Tri-MipRF》通過大量實(shí)驗(yàn)表明，其實(shí)現(xiàn)了最先進(jìn)的渲染質(zhì)量和重建速度。與Instant-ngp相比，Tri-MipRF模型大小減少了25%。

2023年11月，胡文博加入騰訊擔(dān)任高級研究員，繼續(xù)在生成式世界模型深耕細(xì)作，不斷探索 3D 視頻世界模型的新邊界。

視頻世界模型邁向三維空間

流媒體視頻生成作為交互式世界模型和神經(jīng)游戲引擎的一個(gè)基本組成部分，旨在生成高質(zhì)量、低延遲且時(shí)間上連貫的長視頻流。

胡文博今年9月發(fā)表的論文《Rolling Forcing: Autoregressive Long Video Diffusion in Real Time》，分享了他們在這一領(lǐng)域的最新研究成果。

他們設(shè)計(jì)了 “滾動(dòng)強(qiáng)制”（Rolling Forcing）這一新型視頻生成技術(shù)，從而實(shí)現(xiàn)以最小的誤差累積來流式生成長視頻的目的。

“滾動(dòng)強(qiáng)制” 有三項(xiàng)新穎的設(shè)計(jì)。

首先，“滾動(dòng)強(qiáng)制”設(shè)計(jì)了一種聯(lián)合去噪方案，可以同時(shí)對多個(gè)噪聲水平逐漸增加的幀進(jìn)行去噪；其次，“滾動(dòng)強(qiáng)制”將注意力匯聚機(jī)制引入到長時(shí)流式視頻生成任務(wù)中，使得模型能夠?qū)⒊跏紟逆I值狀態(tài)作為全局上下文錨點(diǎn)，增強(qiáng)長期全局一致性；最后，“滾動(dòng)強(qiáng)制”設(shè)計(jì)了一種高效的訓(xùn)練算法，能夠在大幅擴(kuò)展的去噪窗口上進(jìn)行少步蒸餾。

大量實(shí)驗(yàn)表明，“滾動(dòng)強(qiáng)制” 能夠在單塊 GPU 上實(shí)時(shí)流式生成長達(dá)數(shù)分鐘的視頻，同時(shí)顯著減少誤差累積。

胡文博也曾經(jīng)分享他對視頻生成模型的場景演變的理解。

胡文博認(rèn)為，當(dāng)下的視頻生成模型展現(xiàn)出了強(qiáng)大的內(nèi)容生成能力，有潛力作為世界模擬器。但是由于其本質(zhì)是在2D空間上的建模，所以不能保證3D合理性與一致性。

為此，胡文博提出，精確相機(jī)可控是視頻生成模型進(jìn)化為世界模擬器的重要一環(huán)，并在這個(gè)方向做了深入研究，提出ViewCrafter和TrajectoryCrafter的解決方案。

ViewCrafter能夠從單張圖片或者稀疏的多視角圖片進(jìn)行高質(zhì)量的新視角合成，從而實(shí)現(xiàn)靜態(tài)場景的生成。

TrajectoryCrafter延續(xù)這一思想，并將其拓展到了4D場景生成，允許用戶使用想要的相機(jī)軌跡來重新“拍攝”輸入視頻，從而實(shí)現(xiàn)探索視頻背后的4D世界。

雷峰網(wǎng) (公眾號：雷峰網(wǎng)) 了解到，作為世界模型領(lǐng)域的先鋒力量，胡文博的研究正引領(lǐng) AI 從 2D 視頻生成邁向三維空間理解的新時(shí)代。

12 月 13 日上午 9:30 - 10:00 的世界模型分論壇上，胡文博將帶來《Towards 3D-aware Video World Models 》（《邁向三維感知的視頻世界模型》）的主題演講，分享他在視頻世界模型領(lǐng)域的最新研究成果。

在這個(gè)乍暖還寒的季節(jié)，讓我們共同期待胡文博的最新演講，憧憬邁向三維感知的模型世界。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

騰訊胡文博：引領(lǐng) 3D 視頻世界模型新趨勢丨GAIR 2025

隨意打賞

騰訊游戲魔方工作室迎來十五周年，《火影忍者》手游曝光十周年紀(jì)念S忍情報(bào)

樂購科技 ? 1分鐘前

12月3日，騰訊游戲魔方工作室迎來十五周年慶。魔方多款游戲主創(chuàng)來到直播現(xiàn)場爆料，為玩家?guī)懋a(chǎn)品最新進(jìn)度，備受玩家關(guān)注的《洛克王國》IP新作《洛克王國：世界》，也是魔方首款精靈大世界游戲官宣定檔，將于2026年3月26日正式上線。格斗新游《異人之下》也披露了玩法升級，《暗區(qū)突圍》端手游、《火影忍者》《航海王》等也帶來眾多
“豆包手機(jī)”對騰訊是假影響，“汽水音樂”“紅果短劇”才是真影響

虎嗅網(wǎng) ? 57分鐘前

null
豆包AI助手操作微信受限，騰訊又在搞壟斷嗎？

虎嗅網(wǎng) ? 15小時(shí)前

null
騰訊投她，要IPO了

i黑馬 ? 2天前

來源：投資界（ID：pedaily2012）?作者：王露單身年輕人又撐起一個(gè)IPO。本周，社交平臺(tái)Soul的運(yùn)營主體Soulgate已正式向港交所遞交招股書。那個(gè)曾經(jīng)身影遍布互聯(lián)網(wǎng)的交友APP——Soul，也要赴港IPO了。透視下來，Soul由一位80后女生張璐于2015年在上海創(chuàng)立。她早年畢業(yè)于中山大學(xué)，以“靈魂社交
祖龍娛樂與騰訊游戲合作續(xù)簽三年，聚焦IP授權(quán)、獨(dú)家發(fā)行與聯(lián)合開發(fā)，12月17日召開股東特別大會(huì) | 速途網(wǎng)

速途網(wǎng) ? 5天前

速途網(wǎng)11月30日消息（報(bào)道：龍翔），祖龍娛樂昨日發(fā)布公告，宣布與深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司（騰訊控股全資附屬公司，下稱“騰訊計(jì)算機(jī)”）續(xù)簽《騰訊游戲合作框架協(xié)議》，合作期限為2026年1月1日至2028年12月31日，核心涵蓋IP授權(quán)、騰訊集團(tuán)獨(dú)家發(fā)行運(yùn)營祖龍自研游戲以及聯(lián)合開發(fā)等業(yè)務(wù)。據(jù)悉，原《騰訊游戲合作框架協(xié)
騰訊財(cái)報(bào)的重點(diǎn)，不在「賺麻了」

雷鋒網(wǎng) ? 5天前

作者丨胡家銘編輯丨董子博2025年11月13日晚，騰訊發(fā)布2025年第三季度業(yè)績報(bào)。財(cái)報(bào)數(shù)據(jù)顯示，報(bào)告期內(nèi)，公司實(shí)現(xiàn)營收1928.7億元，同比增長15%；經(jīng)營利潤（Non-IFRS）725.7億元，同比增長18%。凈利潤增速跑贏營收。某種意義上講，騰訊“營收增長”這件事，已經(jīng)不再是一個(gè)“新聞”，在長青戰(zhàn)略生態(tài)已成的當(dāng)下
騰訊元寶上線AI生視頻功能

i黑馬 ? 9天前

11月21日，騰訊元寶官宣推出“一句話生視頻”功能。用戶只需用一句話或一張圖，即可讓元寶生成視頻。據(jù)介紹，該項(xiàng)功能基于騰訊混元最新開源的HunyuanVideo 1.5模型。文章評價(jià)匿名用戶發(fā)布發(fā)布
微信小程序要交“蘋果稅”了，但騰訊可能挺開心的

虎嗅網(wǎng) ? 17天前

null
騰訊命門，變了

虎嗅網(wǎng) ? 18天前

null

評論

提交建議

欧美在线播放一区_国产精品久久久亚洲一区_久久午夜a级毛片_国产精品视频大全