全面戰(zhàn)勝ReAct!斯坦福全新智能體推理框架 性能提升112.5%
斯坦福和MIT的全面全新研究團(tuán)隊(duì)推出了一種新的AI智能體推理框架ReCAP,在長(zhǎng)上下文任務(wù)中全面超越了現(xiàn)有的戰(zhàn)勝智主流框架ReAct,性能提升顯著。斯升ReCAP通過(guò)獨(dú)特的坦福體推遞歸樹結(jié)構(gòu)和三大機(jī)制,解決了大語(yǔ)言模型在復(fù)雜任務(wù)中常見(jiàn)的理框目標(biāo)漂移、上下文斷層和成本爆炸等問(wèn)題。架性在多項(xiàng)基準(zhǔn)測(cè)試中,全面全新ReCAP均取得了大幅領(lǐng)先的戰(zhàn)勝智成績(jī),展現(xiàn)出強(qiáng)大的斯升通用性和穩(wěn)定性。盡管計(jì)算成本略有增加,坦福體推但其在關(guān)鍵任務(wù)中的理框表現(xiàn)使其成為極具潛力的新一代通用推理架構(gòu)。 自2022年ReAct框架提出以來(lái),架性AI智能體推理領(lǐng)域便進(jìn)入了百家爭(zhēng)鳴的全面全新時(shí)代,各種復(fù)雜架構(gòu)如雨后春筍般涌現(xiàn)。戰(zhàn)勝智 然而,斯升這些架構(gòu)大多曇花一現(xiàn),因其復(fù)雜的結(jié)構(gòu)導(dǎo)致在更換評(píng)測(cè)基準(zhǔn)時(shí)需要大幅修改示例,表現(xiàn)遠(yuǎn)不如ReAct穩(wěn)定泛用,這也使得ReAct在過(guò)去三年中,成為了該領(lǐng)域事實(shí)上的主流與標(biāo)桿。 但是,我們真的不能再做得更好了嗎? 面對(duì)大模型在長(zhǎng)上下文任務(wù)中走幾步就忘的短期記憶頑疾,業(yè)界是否只能止步于此? 來(lái)自斯坦福大學(xué)與MIT的研究團(tuán)隊(duì)給出了肯定答案,正式發(fā)布的AI Agent推理新框架——ReCAP(遞歸上下文感知推理與規(guī)劃),從真正意義上統(tǒng)一了序列推理和層級(jí)推理,在多種任務(wù)中全面戰(zhàn)勝了ReAct,且繼承了ReAct示例簡(jiǎn)單、高通用性,和即插即用的優(yōu)勢(shì)。 在嚴(yán)格遵循 pass@1(一次通過(guò))的評(píng)測(cè)原則下,ReCAP在長(zhǎng)序列具身任務(wù)Robotouille上相比ReAct基線取得了84.2%(同步)和112.5%(異步)的巨大性能提升。 長(zhǎng)上下文任務(wù)的三大「死穴」 團(tuán)隊(duì)指出,當(dāng)今大語(yǔ)言模型在執(zhí)行復(fù)雜任務(wù)時(shí)普遍有三種問(wèn)題: 目標(biāo)漂移(Goal Drift):執(zhí)行幾步后就逐漸忽略了原本的目標(biāo),使得執(zhí)行結(jié)果與期望不符。 上下文斷層(Context Loss):高層的規(guī)劃信息在長(zhǎng)序列執(zhí)行中丟失,導(dǎo)致高層思考與低層執(zhí)行不協(xié)調(diào)。 成本爆炸(Prompt Explosion):每次遞歸都重新鋪開上下文示例和提示詞,推理成本指數(shù)增長(zhǎng)。 簡(jiǎn)單說(shuō),LLM就像一個(gè)短期記憶型天才,而主流推理框架各有局限: 序列推理(例如Chain of Thoughts,ReAct)雖然上下文連貫,但常常因?yàn)槿蝿?wù)太長(zhǎng)導(dǎo)致目標(biāo)漂移; 層級(jí)推理(例如ADaPT,THREAD)將任務(wù)分解為子任務(wù)來(lái)明確目標(biāo),但給子任務(wù)單獨(dú)分配上下文示例和提示詞,導(dǎo)致上下文斷層和成本爆炸。 ReCAP 讓序列推理和層級(jí)推理有機(jī)結(jié)合 ReCAP的核心在于將一個(gè)有記憶、有反饋的遞歸樹結(jié)構(gòu)作為模型的工作記憶區(qū),其三大機(jī)制環(huán)環(huán)相扣: 計(jì)劃前瞻分解(Recursive Task Decomposition with Plan-Ahead):模型首先生成一個(gè)完整的子任務(wù)列表,但只執(zhí)行第一個(gè)子任務(wù),完成后再動(dòng)態(tài)優(yōu)化后續(xù)計(jì)劃。 結(jié)構(gòu)化父任務(wù)再注入(Consistent Multi-level Context and Structured Injection):整個(gè)執(zhí)行流程只有一個(gè)上下文,由所有任務(wù)共享。每次子任務(wù)遞歸返回時(shí),父任務(wù)會(huì)將自身的思考和計(jì)劃再次注入上下文,使父任務(wù)在重新計(jì)劃時(shí)可以參考上次的思維和執(zhí)行結(jié)果,規(guī)劃出能真正達(dá)成任務(wù)目標(biāo)的底層操作。 滑動(dòng)窗口記憶(Sliding Window and Scalable Memory Efficiency):通過(guò)滑動(dòng)窗口機(jī)制,在統(tǒng)一上下文中只保留最新關(guān)鍵歷史,實(shí)現(xiàn)了內(nèi)存占用可控的深度遞歸,從根本上杜絕了成本爆炸。 實(shí)驗(yàn)結(jié)果 長(zhǎng)上下文任務(wù)性能大幅躍升 團(tuán)隊(duì)在多個(gè)典型長(zhǎng)上下文推理基準(zhǔn)上驗(yàn)證了ReCAP的效果。結(jié)果令人矚目: 在Robotouille(同步)上取得70%成功率,較ReAct(38%)提升84.2% 在Robotouille(異步)上取得53%成功率,較ReAct(24%)提升112.5% 在ALFWorld上取得91%成功率,穩(wěn)定優(yōu)于ReAct(84%) 在SWE-bench Verified取得44.8%的成功率,優(yōu)于ReAct基線(39.58%) 值得注意的是,團(tuán)隊(duì)在實(shí)驗(yàn)中始終秉持pass@1的實(shí)驗(yàn)原則,即不使用樣本層面的重試、多數(shù)投票或者束搜索。這意味著ReCAP能在真實(shí)多步環(huán)境中,更好地保持目標(biāo)一致性與執(zhí)行連貫性——不僅「想得對(duì)」,還能「做得穩(wěn)」。 ReCAP是除ReAct之外,又一個(gè)能夠在具身推理、以及代碼編輯這兩種截然不同的任務(wù)上都取得穩(wěn)健表現(xiàn)的通用推理架構(gòu)。 論文中排除了THREAD、Reflexion等其他基線,因其在實(shí)驗(yàn)設(shè)置中難以穩(wěn)定復(fù)現(xiàn)或與 pass@1 協(xié)議不兼容,這進(jìn)一步凸顯了ReCAP作為新一代通用推理基線的潛力。 優(yōu)勢(shì)與成本的權(quán)衡 任何強(qiáng)大的能力都伴隨著成本。團(tuán)隊(duì)對(duì)此進(jìn)行了透明分析:ReCAP的總計(jì)算成本約為ReAct的三倍。這主要來(lái)自于其核心的計(jì)劃前瞻分解機(jī)制所額外需要的LLM調(diào)用。 然而,考慮到其在關(guān)鍵任務(wù)上帶來(lái)的性能巨幅提升與目標(biāo)一致性,這種成本的增加在對(duì)準(zhǔn)確性要求高的實(shí)際應(yīng)用中是可以接受的。這為開發(fā)者提供了一個(gè)清晰的性價(jià)比權(quán)衡選項(xiàng)。 遞歸,是通往通用智能的鑰匙? 從人類思維到圖靈機(jī),遞歸始終是智能的底層邏輯。ReCAP的提出,可視為AI邁向通用推理系統(tǒng)的關(guān)鍵一步。 其潛力遠(yuǎn)不止于論文所驗(yàn)證的任務(wù)范疇。任何依賴復(fù)雜決策回路與長(zhǎng)期上下文記憶的大型任務(wù),都是ReCAP的理想應(yīng)用場(chǎng)景。 例如在深度研究中自主遍歷文獻(xiàn)、整合多源信息并生成洞察報(bào)告;或在復(fù)雜軟件工程中管理龐大代碼庫(kù)與依賴關(guān)系,推進(jìn)需多步驗(yàn)證的系統(tǒng)項(xiàng)目。 長(zhǎng)遠(yuǎn)來(lái)看,ReCAP的遞歸規(guī)劃能力可以與空間智能相結(jié)合,解決更為復(fù)雜的現(xiàn)實(shí)世界問(wèn)題。李飛飛教授近日指出,空間智能——即理解、推理并與三維世界交互的能力,是AI的下一個(gè)前沿。 ReCAP可以為具身智能機(jī)器人規(guī)劃復(fù)雜的長(zhǎng)期任務(wù)序列,而空間智能模型則負(fù)責(zé)處理實(shí)時(shí)感知與動(dòng)作控制,二者結(jié)合實(shí)現(xiàn)機(jī)器人在動(dòng)態(tài)環(huán)境中的自主規(guī)劃與可靠執(zhí)行。 隨著代碼的開源,一個(gè)更擅長(zhǎng)長(zhǎng)期規(guī)劃、穩(wěn)健執(zhí)行的AI時(shí)代或許即將到來(lái)。 作者介紹 共同一作 Zhenyu Zhang, Tianyi Chen, Weiran Xu 均為斯坦福大學(xué)工程學(xué)院計(jì)算機(jī)系碩士研究生 Alex Pentland教授,麻省理工學(xué)院媒體實(shí)驗(yàn)室 創(chuàng)始人之一,美國(guó)國(guó)家工程院院士,Toshiba Professor at MIT,斯坦福大學(xué) HAI Fellow。 Jiaxin Pei博士,斯坦福大學(xué)博士后研究員,研究興趣集中在大語(yǔ)言模型、人機(jī)交互、Agentic AI,即將前往得克薩斯大學(xué)奧斯汀分校任教。
- 最近發(fā)表
-
- “一句話的事兒” 小藝從“聽令行事“到”主動(dòng)服務(wù)“ 串聯(lián)鴻蒙應(yīng)用智能體生態(tài)
- 小米17 Ultra開賣 線下用戶首選徠卡版:7999元定價(jià)良心
- 中央氣象臺(tái):12月28日起冷空氣將影響北方部分地區(qū)
- 宇樹G1機(jī)器人測(cè)試時(shí)突然踹工程師一腳 馬斯克評(píng)論“笑哭”表情
- 從單機(jī)智能到群機(jī)協(xié)同 中國(guó)工程機(jī)械探索智能新階段
- 我國(guó)修改國(guó)家通用語(yǔ)言文字法 鑄牢中華民族共同體意識(shí)
- 擔(dān)心車輛自燃 山西一小區(qū)物業(yè)禁新能源車入地庫(kù)
- 空中小轎車!中國(guó)自研全球首款6噸級(jí)傾轉(zhuǎn)旋翼飛行器首飛:航程4000公里
- 印度一滿載大貨車遭SUV強(qiáng)擠:避讓時(shí)爆胎傾倒將其壓扁
- 中國(guó)排球向“新”而行:女排亮出新陣容 男排打出新面貌
- 隨機(jī)閱讀
-
- “暗戰(zhàn)”已至:聯(lián)想將推AI超級(jí)智能體 功能全面超越標(biāo)豆包手機(jī)
- “湘超”展中國(guó)草根足球活力
- 首次太空出征!我國(guó)四只“飛天小鼠”名字揭曉 還有專屬卡通形象
- 30余位海外臺(tái)胞青年齊聚哈爾濱 開啟一周冰雪“冬令營(yíng)”
- LABUBU二手價(jià)格崩了 黃牛坦言現(xiàn)在不好做
- 2025年1—11月份全國(guó)規(guī)模以上工業(yè)企業(yè)利潤(rùn)增長(zhǎng)0.1%
- 外媒:烏克蘭首都基輔傳出多次強(qiáng)烈爆炸聲
- 今年諾貝爾獎(jiǎng)“穿墻術(shù)”到底咋回事?一張漫畫搞懂了
- 定價(jià)超20萬(wàn)元 臺(tái)積電2nm已量產(chǎn):iPhone 18首發(fā)被AMD搶了
- 中國(guó)臺(tái)灣宜蘭縣海域發(fā)生6.6級(jí)地震 網(wǎng)友:福建震感明顯
- 真我Neo8入網(wǎng):首發(fā)三星1.5K 165Hz高刷屏
- 中美青年在廣西對(duì)話 傳承飛虎隊(duì)精神共筑友誼橋
- 2nm時(shí)代來(lái)了!三星放棄4nm工藝:全力推進(jìn)2nm制程
- “風(fēng)云家族”上“星” 太空“氣象哨兵”再升級(jí)
- 史上最強(qiáng)華為nova 15系列壓軸登場(chǎng) 余承東:加量不加價(jià) 非常香
- 宇樹G1機(jī)器人測(cè)試時(shí)突然踹工程師一腳 馬斯克評(píng)論“笑哭”表情
- L3級(jí)出事故咋判責(zé)?深藍(lán)汽車鄧承浩:自動(dòng)駕駛時(shí) 廠商擔(dān)責(zé)
- 吳曉波:在今天的中國(guó) 不想躺平只有創(chuàng)新和創(chuàng)業(yè)
- 中國(guó)男籃大起大落爬陡坡:全隊(duì)合力 團(tuán)結(jié)是鮮明標(biāo)簽
- iQOO Z11 Turbo前瞻:性能影像全面升級(jí)
- 搜索
-