最新 AGI 暴論:強化學習的「GPT-3 時刻」實現,還需要 1 萬年?
最近,國外一家 AI 初創公司 Mechanize 的三位創始人聯合撰文,提出一個大膽的判斷:RL 或許要迎來屬于它的 “GPT-3 時刻”,但還需要擁有相當于數千至上萬年“模型處理任務所用時間”的訓練。
在他們看來,當前的 RL 模型還存在明顯短板,比如泛化能力差、難以適應新任務等,這種局面其實很像 GPT-3 出現之前的語言模型——能解決特定問題,但難以遷移和擴展。
為了解決這個問題,他們提出了一種新的訓練范式,叫作“復制訓練”(Replication Training):讓模型在虛擬環境中模擬真實軟件的操作過程,比如使用瀏覽器、編寫代碼、處理命令行任務等等。
這種訓練方式的好處在于任務目標清晰、評分機制明確,同時還能大規模自動生成訓練數據,非常適合用在 RL 模型的系統性訓練中。當然,它也不是萬能的,比如在任務開放性和測試設計方面還有一些挑戰。
但他們認為,復制訓練是一條能推動 RL 模型走向通用智能的重要路徑,有望帶來一次類似 GPT-3 那樣的能力躍遷。
綜上,雷峰網 (公眾號:雷峰網) AI 科技評論對原文做了不改原意的整理與呈現:
當 RL 遇上 GPT-3 式規模化
GPT-3 向我們展示了一個關鍵事實:僅靠規模的提升,就能催生出強大、任務無關的 few-shot 能力,甚至在不少任務上超越了精心微調的模型。在此之前,想要在特定任務上取得最優表現,通常需要先用大規模通用語料進行預訓練,再針對目標任務進行微調。
今天的強化學習(RL)則還停留在 GPT-3 出現前的階段:我們依舊先預訓練一個大型模型,然后在某些高度特化的環境中進行繁瑣的任務級微調。但這一策略存在根本缺陷——泛化能力極弱。一旦模型面臨的環境略有變化,性能便迅速崩潰。
我們認為,RL 也將迎來屬于它的 “GPT-3 時刻”。這意味著,訓練方式將從在少數環境中微調,轉向在成千上萬種多樣化環境中進行大規模訓練,以培育出真正具備 few-shot 能力與任務無關泛化能力的智能體,能夠靈活應對全新任務。
但要實現這一躍遷,前提是我們必須構建出規模和多樣性遠超當前水平的訓練環境——這是推動 RL 走向能力爆發的關鍵。
要實現 GPT-3 級別的 RL 訓練,需要多大的規模?
不過,目前的 RL 數據集規模仍然相當有限。
以 DeepSeek-R1 為例,其訓練數據大約包含 60 萬道數學題。假設每道題人類平均需要 5 分鐘完成,總體相當于約 6 年的持續人工勞動。而相比之下,GPT-3 所使用的 3000 億個 token 語料,若按人類正常寫作速度來計算,則需要幾十萬年才能寫完,數量級遠不在一個水平。
另一方面,如果想讓 RL 的算力投入達到當前最前沿預訓練模型的水平,可能需要大約 1 萬年的人類任務時間(即模型處理所需的時間,換算成人類完成同樣任務所需的時間)。DeepSeek-R1 在 RL 階段使用了大約 6E23 FLOP,對應約 6 年的模型處理任務時間。如果后續訓練保持與 DeepSeek-R1 相近的訓練周期與分組規模,那么將訓練規模提升到 6E26 FLOP 級別,大致對應約 6000 年的模型處理任務的時間。
當然,隨著任務多樣性的提高,未來 RL 是否會采用更大或更小的批次規模,或增加訓練輪數,目前仍無法確定。由于缺乏相關經驗數據,要精確評估所需的模型任務時間仍有一定難度,但 “1 萬年” 可能是一個合理的估算級別。
為了便于理解,我們可以將這一訓練規模與某些大型軟件工程項目進行類比:無論是 Windows Server 2008、GTA V,還是 Red Hat Linux 7.1,它們都被估算耗費了約 1 萬年的人類勞動。
值得一提的是,將 RL 訓練擴展到這一規模,從經濟角度來看是可行的。由于算力支出在整體訓練成本中占據主導,將 RL 的訓練預算提升至與語言模型預訓練相當的水平,有望顯著提升模型性能,而不會帶來成倍增長的總成本。
而真正的挑戰在于:如何構建足夠多樣且可自動評估的 RL 環境。實現這一點,或許需要我們徹底重新思考 RL 環境的設計與構建方式。
復制訓練或是解法?
想象一下,如果每次訓練一個語言模型進行下一個詞的預測(next-token prediction),都必須手動編寫整套訓練語料庫,那幾乎是不可能完成的任務。實際上,我們之所以能夠訓練出強大的語言模型,正是因為可以直接利用大量現有內容資源 —— 比如書籍、學術論文、博客文章,以及 Reddit 上的討論等,構建出大規模、高質量的訓練數據。
類似地,我們認為,強化學習也有望迎來自己的 GPT-3 時刻,而實現這一點的關鍵,很可能是一種被我們稱為“復制訓練”(Replication Training)的新范式。
其核心思想是:讓 AI 模型去復現已有的軟件產品,或其中的某些具體功能。
起步階段可以從一些相對簡單的命令行工具入手,比如實現某種哈希或加密算法的小程序——這些目標清晰、結構緊湊,適合訓練初期使用。隨著模型能力的提升,復制訓練的任務范圍也可以擴展到更復雜的系統,比如網頁應用、專業軟件,甚至是大型游戲。雷峰網
每一個復制訓練任務,都會提供詳盡的功能規范和一個參考實現。AI 模型的任務,就是生成一個行為上與參考實現完全一致的版本。這種方式的最大優勢在于評估非常直接且客觀:模型的輸出要么與參考結果完全一致,要么就不一致。清晰的評分標準大大簡化了訓練過程中的評估機制,也提升了訓練效率。
盡管“復制訓練”任務在形式上可能與日常軟件開發有所不同,但它們瞄準的,正是當前 AI 系統在工程能力上仍顯薄弱的一些關鍵環節。比如,要讓模型復現一個復雜算法(如一個包含上萬行代碼的加解密命令行工具,并要求嚴格遵循詳細規范),就必須具備以下核心能力:
準確閱讀并深入理解復雜的技術文檔;
嚴格按照規范執行指令,避免邏輯或實現上的任何偏差;
能夠識別并修復早期出現的錯誤,具備可靠的問題恢復能力;
在長時間、高復雜度任務中保持穩定輸出,就像人類工程師連續開發數周一樣,成果質量直接由正確性衡量;
面對困難具備足夠韌性,不輕易滿足于“差不多就行”的半成品。
這些能力的組合,是構建可靠、高質量 AI 工程系統的基礎。而“復制訓練”的獨特價值就在于:通過高強度還原現實復雜系統,為模型提供了系統性磨煉上述能力的路徑。這不僅補足了當前 AI 系統的能力短板,也為通用型智能體的訓練奠定了關鍵技術基石。
我們預測,“復制訓練”將成為 AI 訓練的下一個核心范式。
這一判斷源于當前 AI 發展的基本趨勢:通過大量已有的人類創作數據,自動構建出豐富的新任務。就像自然語言資源廣泛存在于互聯網上一樣,軟件本身也是一種高度結構化且數量龐大的現成素材。復制訓練正是基于這一前提,提供了一種可擴展、自動化的方式,能夠高效生成復雜任務,推動我們向具備端到端開發能力的 AI 邁進——即那些能夠獨立完成整個軟件項目的智能體。
當然,這一方法也并非沒有挑戰。比如,如何編寫既高效又覆蓋全面的測試,仍是一項不小的工程難題,往往需要大量人工投入。此外,從形式上看,復制訓練也略顯“人工”——在日常軟件開發中,完全照搬已有軟件的情況并不常見,盡管它在軟件移植、遺留系統重構、“潔凈室”重寫等場景中確實存在。
盡管如此,我們仍認為復制訓練提供了一條清晰且具可行性的路徑,能夠將 RL 訓練環境擴展到支持泛化能力所需的海量規模。這種范式很可能成為 RL 實現“GPT-3 時刻”的關鍵——幫助模型積累成千上萬年級別的任務經驗,進而具備穩健、任務無關的泛化能力。
那么,復制訓練是否就是實現“全自動勞動”的終極路徑?我們并不這么認為。雖然它有望催生出能夠依據詳細設計說明獨立完成復雜軟件項目的系統,但這類系統仍可能缺乏人類所具備的開放性、靈活性,以及在跨領域場景中進行抽象規劃和高階管理的能力。即便未來 AI 成為頂級程序員,它們也未必能勝任更廣泛意義上的決策與協調任務。
不過,我們相信復制訓練仍有可能成為通往下一個訓練范式的關鍵“橋梁”——正如在復制訓練之前,我們也需要經歷預訓練這一階段一樣。我們對這一新范式的潛力與前景,充滿期待
雷峰網原創文章,未經授權禁止轉載。詳情見 轉載須知 。