

这项由厦门大学、阿里巴巴AMAP(高德舆图)商讨团队和南边科技大学和洽开展的商讨,以预印本表情发布于2026年5月,论文编号为arXiv:2605.12004,感意思的读者可通过该编号在arXiv平台检索完整论文。
要交融这篇商讨解决了什么问题,不妨先计划这么一个场景:你雇了一支登山队,条目他们通过反复尝试来找到登顶阶梯。但问题是,如若山顶周围有一段绝壁峭壁,而这支军队的装备和妙技根柢无法攀越,那么岂论他们在绝壁底下尝试若干次,长期也到不了山顶,天然也就学不到"如何登顶"这件事。这个"绝壁"的譬如,恰好描摹了刻下AI智能体强化学习西宾中最辣手的中枢难题——商讨团队将它定名为"可达性坚苦"。
连年来,大型语言模子(浅易交融为能读能写、能推理的AI大脑)仍是从只会回话问题的聊天机器东说念主,进化成了能够主动实践任务的"智能体"。这类智能体可以自主上网搜索信息、调用各类器具、完成复杂的多方法任务,就像一个能我方策动行程、预订机票、查询攻略的智能助手。西宾这种智能体的主流方法叫作念强化学习——让AI反复尝试任务,顺利了就给奖励,失败了就扣分,通过多数试错让它越来越智慧。
联系词,这种西宾形势有一个致命瑕玷:它饱和依赖AI我方能"适值"找到正确谜底。如若一项任务对AI来说太难,AI在西宾过程中从来莫得一次顺利,那就莫得任何"奖励信号"可以学习,西宾就绝对堕入停滞。这便是那说念绝壁——超出AI刻下才能范围的任务,它长期触碰不到顺利的彼端,天然也就长期学不会。
面临这个窘境,业界频繁的解决决策是在强化学习之前先作念一轮"有监督的微调"——浅易说,便是先给AI看多数东说念主工标注的高质料示范数据,让它先热热身,打好基础,再驱动强化学习西宾。但这条路需要消耗多数东说念主力来准备带有完整推理过程的示范数据,老本极高,而且每换一个新任务场景就得从新准备,难以范围化。
AMAP商讨团队建议的新方法——ACTGUIDE-RL——走了一条饱和不同的路。他们的中枢念念路是:既然互联网上每天都有海量东说念主类操作电脑、使用手机应用、浏览网页的活动纪录,这些"动作数据"天然莫得AI推理过程,但胜在顺手可取、范围浩大。能不成把这些动作数据当成一份"行动参考舆图",径直塞给AI,帮它跨过那说念绝壁?实考证明,这个念念路不仅可行,而且后果出众。
**一、绝壁到底有多荆棘:可达性坚苦的现实**
要信得过交融ACTGUIDE-RL的价值,必须先搞了了那说念"绝壁"到底有多难翻越。商讨团队为此缔造了一套严谨的表面框架,用"可达性动态"来量化这个问题,天然听起来学术,但背后的逻辑其实很直观。
计划AI在实践一项复杂任务时每走一步的情状。每个情状都可以联想成登山过程中的一个营地——从这里开赴,你有多概况率最终登顶?商讨团队把这个"潜在顺利概率"叫作念"灵验情状探问质料"。如若在职务进行到某个重要阶段,这个顺利概率瞬息从相配可不雅的水平断崖式跌落到接近零,就阐述AI在这里遇到了一个无法高出的坚苦。
这就像登山队走到了一段极难的岩壁眼前——岂论之前积存了若干高度,一朝到了这里,不息进取的概率趋近于零。更厄运的是,一朝越过这个坚苦点,即便拼凑走下去,后续通盘方法的顺利率也都会保持在极低水平。因为早先就仍是"垮掉"了,后头再怎样勤勉也船到抱佛脚迟。
在强化学习的语境中,这意味着什么?当AI在一批任务上进行西宾时,系统会同期让AI尝试归拢个任务好屡次,然后比较哪些尝试顺利了、哪些失败了,从对比中索要学习信号。但如若通盘尝试都以失败告终——因为那说念绝壁就在那里——那么顺利与失败之间就莫得任何互异可以比较,梯度(也便是模子学习的驱能源)归零,西宾绝对卡死。
重要在于,这个问题不是多试几次就能解决的。岂论你让AI尝试十次、一百次如故一千次,只消它的才能自己莫得败坏阿谁重要瓶颈,收尾都是一样的失败。这是一个结构性问题,不是统计性问题。用登山来譬如:光是兢兢业业攀高归拢面绝壁,不给绳子和期间补助,任何次数的尝试都是忽地。
**二、行动数据如何化身"向导绳子":指导机制的责任旨趣**
既然AI我方翻不外绝壁,那就给它一根绳子。ACTGUIDE-RL的中枢翻新,就在于如何把东说念主类的操作纪录鼎新为这根"向导绳子"。
商讨团队领先作念了一个重要子验,来考证这根绳子是否简直有用。他们遐想了两个度量方针:一个是在有参考动作序列指导下,AI的每一步动作与莫得指导时收支若干(称为"指导影响力");另一个是在被指导到某个情状之后,如若把指导拿掉,AI能不成靠我方从这里不息走到至极(称为"前缀可达性")。
实验收尾相配清醒,而且合适直观。关于浅易任务,AI从一驱动就有相配大的把捏能顺利,给不给指导分别不大,两个方针都比较稳重。关于中等难度任务,有些阶段指导的影响力会瞬息飙升——那正是遇到坚苦的位置——越过阿谁点之后,AI靠我方的顺利率会显著回升。而关于困难任务,不指导时AI的顺利率重新到尾接近于零,但指导数据在重要坚悲凉会产生巨大的影响力,一朝被指导越过阿谁节点,后续靠我方不息完成任务的概率就会回到可不雅的水平。
这个发现至关进击。它阐述指导数据并不是在替AI作念决策,而是在帮它找到"那扇打不开的门"的位置,然后指导它穿往常。穿往常之后,AI依然需要靠我方的推理才能不息前进。这就像给登山队在最难的岩壁上提前打好了固定锚点和绳子——队员如故得靠我方的膂力和期间爬,但阿谁蓝本无法通过的重要路段,当今有了可以抓捏的复古。
在具体达成上,商讨团队聘请了一种相配简洁的注入形势:把参考动作序列手脚一段"将来行动参考讨论",径直附加在职务教唆词里。比如,任务教唆后头会随着一段阐述:"以下是一份参考行动轨迹,你可以参考这些方法来完成任务,但这份轨迹可能不完整,你仍需自行判断并完成剩余方法。"接着列出若干条具体操作,如"第一步:搜索XXX;第二步:探问某网页;第三步:搜索YYY……"
这种形势与"将就AI原样复制动作"有现实区别。AI读到这段参考讨论后,依然需要用我方的推理才能来交融、判断,以致可以偏离参考轨迹,只是有了一个参照系让它不至于在重要歧路口迷失标的。商讨团队还对比了其他注入形势,比如把参考动作手脚AI仍是输出的内容径直前置(强制前缀),或者模拟成多轮对话历史。实验标明,手脚"参考讨论"放在教唆词里的后果最好,AI能在死守参考的同期保持更纯简直推理。
**三、给若干指导才合适:最小烦嚣原则的精妙均衡**
找到了向导绳子之后,新的问题来了:给若干绳子才算合适?
名义上看,既然指导灵验,那指导越多越好。但商讨团队发现,这个直观是空虚的。过多的指导会带来一个隐患——离战略风险(off-policy risk)。这个主见用登山譬如来交融很直不雅:如若全程都有东说念主拖着AI爬,最终天然到了山顶,但AI学到的是"被拖着爬的嗅觉",而不是"我方爬山的妙技"。西宾时靠指导爬往常了,测试时莫得指导,如故不会。
更期间性地说,当AI在有指导的情状下生成的行动轨迹,与它在莫得指导时天然生成的轨迹互异越大,这批西宾数据关于西宾"无指导版AI"来说就越不可靠。这种互异会累积放大,导致学习信号不默契,最终不仅莫得匡助,反而可能让西宾朝空虚标的走。
为了量化这个风险,商讨团队测量了"累积对数比率偏移"——平方说便是有指导时AI的每一步弃取,与无指导时比拟偏差了若干,把通盘方法的偏差加起来。实验收尾画出了一幅相配直不雅的图:随着指导比例从20%升迁到100%,这个累积偏差的平均值稳步增大,而且更重要的是,偏差的波动幅度(也便是不默契性)增长得更快。这意味着指导越强,西宾数据的质料越不默契,反而会牵累学习后果。
这个发现催生了ACTGUIDE-RL最中枢的遐想原则:最小烦嚣原则。浅易说:能不指导就不指导,必须指导时用最少的指导量。
具体操作是这么的:关于每一说念西宾题,系管辖先让AI在莫得任何指导的情况下尝试若干次。如若有哪怕一次顺利,那就太好了,径直用这些无指导的数据西宾即可,根柢不需要启动指导机制。只好当通盘无指导尝试全部失败时,系统才会计划引入指导。
而且指导并不是一股脑全部给出,而是分层递进的。参考动作序列被切分红若干段:提供前1步、前2步、前3步……直到全部方法,造成一个从弱到强的指导梯队。系统会用二分查找的形势高效找出"最少需要给出若干步参考动作,才能让AI至少有一次顺利",就用这个最引言导量,未几给一步。
这个机制的精妙之处在于它的自适合性。关于略微难极少的任务,可能只需要给前3步的参考,后头AI就能我方经管;关于相配难的任务,21点游戏中国官方app下载可能需要给出前15步以致更多。指导量动态匹配任务难度,既败坏了坚苦,又把离战略风险欺压在最低限制。
**四、学到的东西如何变成信得过的才能:搀杂策略优化的内化机制**
有了最小烦嚣的指导机制,还有临了一说念坎要跨:如何把在指导放学到的东西,信得过内化成AI在莫得指导时也能使用的才能?
这个问题的现实是:指导只在西宾时存在,测试时AI是零丁责任的。如若AI只是学会了"有指导时该怎样作念",那西宾再好也没用。必须让它把有指导时得到的训导,鼎新为无指导时的内在智商。
商讨团队聘请的决策叫作念搀杂策略优化。在每一轮西宾中,系统会同期处理两种开首的数据:一种是AI在莫得任何指导的情况下自主生成的轨迹;另一种是AI在有指导的情况下生成的轨迹。这两种轨迹被搀杂在一皆,用于更新归拢个模子。
重要在于如何处理这两种数据的"计价形势"。强化学习中有一个进击主见叫进击性比率——它忖度的是"咱们当今西宾的模子"与"生成这批数据时的模子"在活动上的差距,用来修正学习信号的权重。关于无指导轨迹,比率的策划形势很步调,径直比较两个版块的无指导模子即可。但关于有指导轨迹,商讨团队作念了一个重要疗养:分母用的是"生成数据时的有指导模子",而分子用的是"刻下西宾的无指导模子"。
这个遐想的含义是:咱们承认这批数据是在指导匡助下生成的,但咱们但愿把这份功劳记在无指导模子的账上,让无指导模子从这些训导中获益,缓缓学会在莫得指导的情况下也能走到那些之前到不了的场所。这就像西宾轮上学会了骑自行车,然后通过锻真金不怕火冉冉去掉西宾轮,最终达成自主骑行。
实考证明这个机制是不可或缺的。商讨团队专门作念了消融实验——便是把某个组件去掉,望望后果会差若干。去掉搀杂策略优化这个组件后,模子在三个主要测试集上的获利大幅下滑,阐述如若莫得这个"内化通说念",指导放学到的训导就无法信得过鼎新为无指导才能,白白摧残了西宾资源。
**五、实战推崇:数字背后的故事**
表面再好意思满,最终如故要用数据讲话。商讨团队在四个难度递进的搜索智能体测评集上进行了全面测试,每个测评集都代表一类实在的复杂任务场景。
GAIA测评集是一个综合性的智能助手才能测试,包含需要深度推理和汇注搜索的实在问题,分为三个难度等第。WebWalkerQA测试的是智能体在复杂网页中多跳推理的才能,包含680说念需要跨多个页面抓取信息才能回话的问题。XBench专注于评估深度搜索才能,试验智能体在广度和深度上检索和整合信息的综合推崇。BrowseComp-ZH则是一个汉文互联网环境下的复杂网页浏览基准,包含289说念需要跨多个主流汉文搜索引擎考证的问题。
以Qwen3-4B-Instruct这个基础模子为例,它是阿里巴巴Qwen系列中一个相对紧凑的模子。在莫得任何极度西宾的情况下,它在GAIA上只可拿到15.53分,在WebWalkerQA上仅有3.82分,XBench上14分,BC-ZH上7.96分。可以看出这个基础模子在复杂搜索任务上的才能相配有限。
加上步调的强化学习西宾(莫得指导)之后,获利有所升迁:GAIA涨到了25.24,XBench涨到了18,BC-ZH涨到了15.26,但WebWalkerQA只涨到12.06——因为WebWalkerQA对这个模子来说太难,充满了那些才能范畴以外的"绝壁"地带,步调强化学习遭受了严重的停滞。
换上ACTGUIDE-RL之后,局面饱和不同了。GAIA跃升至35.92,升迁幅度突出10个百分点;WebWalkerQA从12.06飙升至39.85,一跃提高了近28个百分点;XBench从18涨到37,BC-ZH从15.26涨到20.41。迥殊是WebWalkerQA的升迁,险些让东说念主难以置信——这正是因为这个测评集包含了多数超出基础模子才能的困难任务,恰正是ACTGUIDE-RL最擅长匡助败坏的场景。
这种升迁法则在其他基础模子上一样确立。Qwen3-8B是一个更强的模子,即使用步调强化学习也能取得可以的收尾,但ACTGUIDE-RL在此基础上仍然带来了默契的极度增益。Qwen2.5-3B和Qwen2.5-7B这两个稍旧的系列模子,一样从ACTGUIDE-RL中得到了跨板块的全面升迁。一个风趣的细节是:步调强化学习在某些模子上出现了才能倒退的情况——比如Qwen2.5-7B在GAIA上的分数反而从22.32跌到了11.65,Qwen3-8B在BC-ZH上也有狭窄雕残。ACTGUIDE-RL则灵验拦阻了这种雕残,因为自适合指导能让西宾数据的难度长期与模子刻下才能匹配,而不是在它无法可想的任务上反复消耗。
另一个进击的对比实验是与"SFT+RL"历程的比较。商讨团队用阿里巴巴自研的Tongyi-DeepResearch-30B-A3B大模子蒸馏出了4000条高质料的完整推理轨迹,用这批数据先作念监督微调热身,再接强化学习西宾。这是业界公认的步调最优决策,但亦然最高尚的决策。ACTGUIDE-RL在不作念任何监督微调预热的情况下,取得了与这个两阶段历程相配的总体获利。更值得关注的是,监督微调这一步会缩短模子在非搜索任务上的通用才能——比如科学推理、事实判断、指示解任等才能都出现了显著下滑——而纯正用ACTGUIDE-RL西宾的模子则险些莫得这种才能退化,在这三类极度测试上防守了与基础模子相配的水平。
**六、西宾过程中AI在偷偷变智慧:表现才能的不雅察**
除了最终的测评分数,商讨团队还对西宾过程自己进行了细致不雅察,发现了一些颇为风趣的阵势。
随着西宾鼓吹,被指导数据匡助败坏坚苦的任务比例持续增多,灵验西宾样本的粉饰面越来越广,这阐述AI的才能范畴在实在扩张,而不单是是在原有才能范围内反复打磨。与此同期,在莫得指导的测试轮次中,AI平均闲适实践的交互方法数从西宾初期的约4步,稳步增长到接近10步;生成的内容长度也从精炼4000个词元增长到接近12000个词元。这意味着AI不单是是在特定任务上变强,而是在主动习得一种"宝石深挖"的活动方法——遇到复杂问题时不纰漏毁掉,闲适花更多方法去追忆和考证。
为了考证这种更多方法的交互是简直灵验而非无效消耗,商讨团队作念了一个风趣的实验:在测试时把AI能实践的最大交互步数从2步缓缓怒放到32步,不雅察获利变化。收尾娇傲,在2步欺压下获利极低,随着步数欺压缓缓放宽,获利持续稳步高潮,直到32步时达到最优。这有劲地证明了AI如实学会了如何灵验诓骗更多的交互轮次,而不是在摧残方法。
商讨团队还专门测试了行动数据的"噪声容忍度"——也便是如若参考动作序列里混入了一些无关或空虚的操作,后果会着落若干。实验中,他们飞速往参考轨迹里插入与任务无关的干扰动作。收尾娇傲,当干扰比例在10%以内时,获利险些莫得显著着落,以致在GAIA上略有升迁(可能是狭窄的各类性引入了正面后果);当干扰比例升到20%时,获利才出现比较显著的下滑。这阐述ACTGUIDE-RL对现实中不可幸免的数据质料问题有相配强的鲁棒性,不需要对行动数据进行极其严格的清洗才能使用。
商讨团队还探索了一种名为"在线策略自蒸馏"的替代决策,手脚对比基准。这个决策的念念路是:不主动生成指导轨迹,而是让AI用无指导形势解放探索,但在优化时以"有指导版模子"的输出手脚学习主义,相配于用有指导版AI手脚本分来指导无指导版AI的每一步。实验娇傲这个决策如实能带来一定的升迁,但后果显著弱于ACTGUIDE-RL。原因在于:如若AI我方探索不到重要情状,即使本分的指导再好,也无从应用,根柢问题莫得被解决。
**七、商讨的范畴与将来可能**
任何商讨都有其适用范围和未涉及的问题,ACTGUIDE-RL也不例外,商讨团队在论文中坦诚地列出了几个值得不息探索的标的。
目下的主要实验贯串在搜索智能体这一特定场景——AI需要搜索网页、浏览页面来去话问题。弃取这个场景有其合感性:搜索任务莫得复杂的经久情状,行动数据相对容易网罗,任务难度也便于疗养。但ACTGUIDE-RL的底层旨趣是通用的,表面上一样适用于操作图形界面的GUI智能体、使用敕令行的CLI智能体、调用API的器具型智能体,乃至在造谣或现什物理环境中操作的具身智能体。将方法扩充到这些场景,考证其普适性,是了然于目的下一步。
在指导机制自己,目下聘请的是相对浅易的讨论式指导——把参考动作列成一份清单附在教唆词里。更细粒度的指导形势,比如在每一步实践时动态注入刻下步的参考、笔据AI及时情状疗养指导强度,偶然能在保持后果的同期进一步缩短离战略风险,这些都值得真切商讨。
数据的网罗和处理形势一样是一个被特意留待后续的问题。如何从现存的各种互联网用户活动日记、系统操作纪录、应用步调交互数据中高效索要有价值的行动序列?如何进行质料过滤和表情步调化?这些工程性问题与算法商讨同等进击,但本文并莫得系统探讨。
2026FIFA世界杯中国官网说到底,这篇商讨的中枢孝顺可以用一句话轮廓:它证明了"怎样作念"的数据可以弥补"为什么这么作念"的数据的缺失,况且找到了一套方法让AI在参考"行动舆图"的同期,信得过学会自主导航。这关于缩短AI智能体西宾的老本门槛、拓宽可西宾任务的范围,都有切实的酷好。关于崇敬AI如何更好地匡助东说念主类完成复杂任务的读者来说,这正是那些让AI变得更实用、更夷易近东说念主的基础性责任之一。但愿探索完整期间细节的读者,可以通过arXiv编号2605.12004查阅原论文。
---
Q&A
Q1:ACTGUIDE-RL中的行动数据具体是什么,从那里来?
A:ACTGUIDE-RL中的行动数据是东说念主类或AI系统实践任务时留住的操作方法纪录,比如搜索了哪些重要词、探问了哪些网页,只包含"作念了什么动作"而不包含推理过程。在这篇商讨中,行动数据来私用阿里巴巴自研的大模子对西宾任务进行采样,索要正确轨迹中的器具调用称呼和参数,手脚参考讨论注入给待西宾的小模子。现实中,这类数据也可以来私用户操作日记、GUI交互纪录、游戏活动数据等。
Q2:为什么ACTGUIDE-RL要刻意减少指导量,指导越多不是应该后果越好吗?
A:直观上指导越多越好,但实验发现恰恰相悖。指导越强,AI在有指导时产生的活动轨迹与它在莫得指导时的天然活动差距就越大。这批轨迹用于西宾"无指导版AI"时,学习信号会变得相配不默契,因为AI需要学习一种它在测试时根柢不会遇到的情境。ACTGUIDE-RL测量了这种"离战略风险",发现指导比例越高,风险方差增长越快。因此最好策略是用最少的指导败坏坚苦,其余部分让AI我方完成。
Q3:ACTGUIDE-RL和传统的先作念监督微调再作念强化学习的决策比拟,最大的区别是什么?
A:传统SFT+RL决策需要准备包含完整推理链的高质料示范数据,老本高且每换场景需要从新准备。ACTGUIDE-RL只需要"作念了什么动作"的行动纪录,不需要完整的推理过程21点游戏官网,数据获取老本大幅缩短。实验中ACTGUIDE-RL在四个主要测试集上取得了与SFT+RL相配的总体获利,且不会像SFT那样挫伤模子在非主义任务上的通用才能,在科学推理、事实判断、指示解任等才能上均未出现退化。