|
|
2 U% h" t4 h+ N
7 s$ N* W/ e- t' Y# x% X. |
ProAct,一种将对话间的空闲时间转化为主动准备机会的新架构。
* |2 g0 c! S8 M"帮我把明天上午10点的项目评审会安排一下。" 你刚对 AI 助理下达了指令。
9 m8 X. ~; j. P& u; O! Y0 P" l( z"会议已安排。" 然后呢?然后它就原地“下班”了。5 ^! K) K: Y. l/ R
直到半小时后,你突然想起来:"对了,还得准备10页的项目进展汇报 PPT,要有风险评估、下一步计划和演讲备注。"
. Z% Z E4 y# d% S" M" S3 m. J3 ~这时,传统 Agent 才如梦初醒,开始翻阅历史记录、梳理项目进展、组织材料结构。但一个真正靠谱的人类助理,在你提了一嘴“明天开评审会”的时候,早就在脑海里过了一遍——你肯定需要进度摘要,大概率还要看风险点,甚至连 PPT 大纲都已经在后台默默帮你搭好了。' w# a: S3 |6 {2 ?6 G# w# m# g
上海交通大学 APEX 实验室提出了ProAct,一种将对话间的空闲时间转化为主动准备机会的新架构。它不再等你把每一个需求都像挤牙膏一样说出口,而是在你沉默的时间里,默默为你“偷偷备课”。
! j5 o' G' Q, p, ]$ S9 M& d
7 e7 Q9 ^1 r9 l8 j, A% M n
; n2 C) r' E7 r c* ~( C& X
图 1:传统 Reactive Agent(上)vs ProAct(下)的交互时间线对比。传统 Agent 在完成任务后进入休眠,用户提出新需求时才从零开始准备;ProAct 则利用空闲窗口预判可能的后续需求(如评审材料),提前检索证据并组织内容,在用户开口前就已准备就绪。
- p0 |4 x1 _% y i论文标题:Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents$ L0 K* z+ @* g H6 ~
作者:Haoyi Hu, Qirong Lyu, Xianghan Kong, WEIwen Liu, Jianghao Lin, Zixuan Guo, Yan Xu, Yasheng Wang, Weinan Zhang, Yong Yu4 }7 E! ^2 F4 N& p' `% }- ^# N$ E
单位:上海交通大学、腾讯/ j! r! Q0 Q1 A- \& r) L6 ]) D
论文链接:https://arxiv.org/abs/2605.25971
8 p8 n4 X' h! f l项目地址:https://github.com/AgentACE-AI/ProAct
/ ~* g2 \0 O! O" i$ v& w4 n# KDemo 页面:https://agentace-ai.github.io/proact-showcase/( r6 L; H4 G+ t2 K- M9 @
014 l7 K8 s9 ~$ q- c1 o, a5 g& _
. @! Y, ^5 e4 v! q5 P
0 @6 E+ U: [6 W: f- PAgent 为什么总像“客服”?; k G2 ?$ c( x
心理学中有一个概念叫前摄应对(Proactive Coping):人在预判到未来需求时,会提前积攒资源、预做准备,而非等到火烧眉毛才行动。
: i3 z4 h$ m i7 d* I. w" j% Z8 ^然而今天绝大多数大模型 Agent,本质上依然是 Reactive Agent:你拨一下,它转一下;你不问,它就休眠。它们把用户两次交互之间的空闲时间当成纯粹的空白。2 o8 z/ K5 v* ^; f7 r1 m0 F
ProAct 的核心主张:空闲时间不是空白,而是被浪费的算力窗口。把一部分工作提前搬到空闲窗口,让 Agent 在你沉默的时间里主动学习和准备。& ?/ w+ V- W# g* [( u
029 |4 D1 W3 S+ e# O, r9 @( f2 q
3 }8 O( e+ U4 R4 ]# u
! `9 K9 s) E0 h$ i
ProAct 架构:
) X$ C- m0 z9 P9 U" j从“瞎忙”到“神预判”的三级流水线
0 \9 p: W) N/ ~7 C如果随便给 Agent 塞一个后台搜索的权限,它大概率会变成“智能骚扰”——一有空就疯狂弹窗,推一堆没用的信息。ProAct 不是在后台盲目乱搜,而是设计了一条严谨的主动计算流水线:预测 → 筛选 → 交付。( {6 p+ [- W. N8 P) _
- L; A, Y9 p2 ]% J/ q
o8 M8 M+ @* }( T$ ~/ a6 J图 2:ProAct 系统总览。前台交互完成后,系统更新持久记忆(用户画像、知识库、对话轨迹),随即进入空闲期主动计算:Future-State Prediction 预测未来需求,Idle-Time Acquisition 对高价值候选执行定向证据检索与知识合成,最终由 Utility-Aware Delivery Policy 决定推送、排队还是静默存储。: g+ o+ c* t" K! A' S) m
▎Future-State Prediction:精准锚定未来需求
2 y1 G% l5 e H9 a* E预测模块从两个源头生成候选需求:
" g, M q( d2 Q/ u, O' ~) g. u2 o5 v' }. e3 E7 u4 ]
/ @; k0 k- G# g, c* U; D& _* y
% e; f" s6 S. j' z$ X+ l4 F+ u本地场景推断:从最近几轮对话中直接推断可能的后续需求(如安排评审会 → 大概率需要评审材料)- C& E: Y2 P0 v
P u( \7 G1 k* |2 P7 r3 x; H, y , f- r' B4 F7 X
4 O5 i0 Z+ ]5 H
- . Y7 r, Q2 s. _
关联扩展:从持久记忆中的用户画像、历史摘要、未完成目标中扩展相关方向, y9 h9 O! G9 I7 ^/ G0 m1 o2 R
" n( a$ g- [$ S d' b) ]% B) r
8 ]3 m% X4 C- W- A3 w* h/ {! B此外,当记忆层检测到过时、不完整或证据薄弱的知识条目时,这些记忆缺口也会被转化为候选需求——让记忆维护直接驱动信息获取,而非被动等待查询。候选经过置信度过滤和去重后,输出一组紧凑的预测集合。
( K2 J! x. G; L0 ~. Z回到开头的例子:你刚说完“安排明天的评审会”,预测模块已经推断出“需要项目进展材料”和“可能要看风险点”两个高置信候选。
n# F" Y4 V2 t. e+ }) V5 u2 j▎Idle-Time Acquisition:算力花在刀刃上) Z) Q- ^4 U# i5 X/ ^; Y
每一个候选需求,都要经过四维价值打分:& O+ X7 t8 |7 E0 [
1.用户相关性(Relevance):和当前目标关联多大?% n6 Z& R* z: u: z( A' ~. s
2.知识缺口(Gap):记忆里是不是已经有答案了?
; R+ U( r& Y: ~$ c3.增量价值(Value):现在准备能省去用户多少未来的麻烦?
' a5 }0 g" y- l+ k7 ]. {4.时效性(Timeliness):现在准备时机对吗?! ^' t1 N& A; h5 O7 m1 l, ~8 e. G
只有总分超过阈值 θ_val 的候选才真正获得算力执行。而执行时,系统还做了增量搜索优化:已有的证据直接复用,部分覆盖的只补缺口,完全没有的才启动迭代搜索。这使得空闲计算不是从零开始的全量搜索,而是增量拼图。6 s& i- M f9 w4 l
回到评审会的例子:你的项目进展数据上周刚更新过,直接复用;风险评估是空白,系统才启动定向搜索补上这块缺口。) u+ C6 _; H/ U; l$ c* b* C* X ?% P% e w% Q
▎Utility-Aware Delivery:推还是不推,这是个问题, [+ }9 Y% |( x+ p" `
准备好材料后,ProAct 绝不会无脑弹窗。交付策略基于一个效用公式做决策:
: ~ i2 p" j/ F7 o a3 O' }0 F; |8 F5 j' Y9 D% q* m2 r# m
U(x) = E[V(x)] − C(t)
. K# i5 ]! Q) ~2 |, m, xV 是预期信息价值,C 是打断用户的成本。只有当 U 超过自适应阈值 τ 时,系统才决定交付。交付方式分三档:
) J( x& u; ?/ C- b/ G' c+ K5 ]- E) ~7 e0 i* N
1 P' ^7 z8 V4 G/ _. e+ W* ]4 ~
* o$ U; n( J. D- k- _$ C4 h! p, _1 ]8 XPush(主动推送):价值极高、时机刚好,直接通知(如:"我已经把评审材料大纲整理好了,需要展开吗?")
7 R+ J; c2 o6 D) X. A8 c4 U. S. Y# E( n8 S- A6 I
7 ]2 D1 R% m1 p1 k% s: F" ], ?
3 z. Z8 c2 O9 v
- 3 _( ^# R1 n# [
Queue(排队等待):有用但不紧急,等用户下次提问时自然融入回复% R+ o) G$ u1 ?- \2 ?5 \; Q
, `$ Z2 ~! o0 F" s) V \
5 c' {$ X; V% h( `( S+ \0 B
5 u( r- v3 P9 {7 h) ?
. V) P* q" x0 h5 I% A! o: Z9 X: GStore(静默存储):大概率有用但现在不宜打扰,存入长期记忆,等用户需要时瞬间调出
& f; t0 {! w# ~$ ?, f0 m' f
/ x% @; o5 C0 x% ]
0 O6 C( [* _" D$ ?/ k) D. E9 Y; } M03& x% e+ b3 x! s' G V" l7 r8 t
6 q. b- Y4 F/ `+ c( @# \4 n( N8 l9 L% }: I# D& @+ b1 C# g
ProActEval:200 个场景的硬核评测* o* h- J G2 N0 ^: G3 x/ s4 [
& K: |: L6 q. h5 l评估一个主动式 Agent,不能只考“记忆力”,还要考它能不能在你开口前就把活儿干了。为此,论文构建了全新评测基准ProActEval:( O# \; j( z, K/ @( i: _
$ ?, s, K% g8 g
9 \5 [: _2 V# S/ G- % y4 h: k* {& U
200 个场景,覆盖 40 个领域(金融规划、软件发布、网络安全、搬家、税务申报……)
3 w3 v1 M% w5 `/ X$ k4 B& K
' @1 v0 F* \4 \# J$ s9 c6 X) b + A1 i% ~ Y7 Z X3 C* Q( \
/ s5 t4 q1 H; W1 q
- - H# A8 E1 P$ U& r. N
每个场景自带Fact Sheet(12-37 条原子化可验证事实,全部虚构实体)% r4 P+ x Z' O9 F/ t8 J* c4 I9 T
& E2 O5 Q9 S/ C2 W0 I# ?
; Z, b: j! G7 K+ N$ O2 `
0 }* t" g5 G) S/ }$ y- 6 ]* O+ l( f6 P6 a2 i/ A
每个场景包含5-15 条用户需求,标注了重要性等级、依赖链和可预测性关系4 A1 a' M& v- S* ] K. N
. b1 L* T( R0 A ' P" s$ U, h# c1 }9 ]' a( z0 O
" Q* b" Z+ m2 r' p+ l o, d5 e
: \1 V r9 \5 nAgent运行时看不到gold label——不能偷看未来需求,只能走一步看一步( W& ?2 @; K- O, p( @1 A
" n" e# s* h8 M: @
6 _3 K {& |% N实验设置了三个对比条件:9 \$ N* b6 {; U9 i
1 ]/ l- I5 [! W Z- u1 `) y2 j1 G0 l2 S" k! I& p
▎主实验结果9 ^% M8 Q) a/ o4 m+ n. ^- X' j
+ Q: j9 [* T7 t, n+ ] R8 j9 ~8 P# f( s7 [3 A) Z8 c
关键观察:原本需要来回拉扯 8 轮才能完成的任务,现在不到 7 轮搞定;幻觉率暴降近三成——因为有充足的后台时间做事实检索,Agent 回答得更准了。
2 z' n2 T, j: A' o, O* \0 J9 c& R0 Y. y▎对比 ProactiveAgent 基线 U: Q& m# n& Y9 Y
论文还将 ProAct 与公开的 ProactiveAgent (Lu et al., 2024) 决策协议做了对比。ProactiveAgent 虽然在 69.6% 的 turn 上都尝试了主动任务,但方向不对:$ e/ ] Q/ w5 t$ R( J8 B% H1 a5 J
6 P8 y- R+ A3 `8 D5 |+ W8 v+ Y; J) {3 [9 x& T* I6 S5 g, y+ b
这说明:光有“主动尝试”的意愿远远不够——方向对了才有价值。ProactiveAgent 做了大量主动尝试但几乎全部打偏,ProAct 的预测精度使得每一次主动准备都落在用户真正会问的方向上。
+ t) c7 L) |2 r* `% u+ a049 N2 {, L2 I1 D
* ^! i4 E% k ^/ t2 M, w9 F! n/ {0 b2 F# t
关键发现: s5 c! r: o: O# v0 e: L& _
算力花在哪,比花多少更重要
W* v; w6 p% w0 S
/ U6 W" ^, o6 G) F$ \. \论文中设置了一个非常有意思的对照组——Undirected Idle。这个条件同样在后台消耗算力(平均每个场景 69.8k active tokens),但因为没有 Future-State Prediction 的引导,像个无头苍蝇一样乱搜。7 x$ W; v* A5 g$ Z
结果:它的 T100 仅比纯 Reactive 下降 0.07 turns,几乎没有改善。而 ProAct 虽然多花了 60% 的 token(111.8k),但换来了 T100 下降 1.2 turns、覆盖率提升 7.2%、幻觉率下降 28.1% 的全面收益。
: x3 V& v- }1 c8 U. {1 n9 J. r- q空闲时间计算的价值不在于“多算”,而在于“算对地方”。) Z0 m. V* M1 W" Y- z
进一步的搜索预算扫描(k = 4, 8, 12, 16)验证了这一点。随着 k 增加,Anticipation Recall 从 0.253 单调上升至 0.432;但 User Effort 并不单调下降——一旦主要的可预测需求被覆盖,追加搜索追的是边际越来越低的长尾需求,active-token 成本却持续攀升。5 e8 B% D4 p" z, e8 ?. y# I
4 C" o8 j; c0 ]/ c
5 ?4 d9 D# S Y2 Q图3:搜索预算分析(50 场景子集)。横轴为搜索预算 k,四个面板分别展示 T100、User Effort、Anticipation Recall 和 Active Token 成本。灰色区段标注了相同预算下 Directed Idle 与 Undirected Idle 的差距——在每一个预算点上,有预测引导的定向搜索都优于无方向的盲目搜索。但随着预算增加,效率收益趋于平缓而成本持续攀升。
. v! z' H+ e7 c; [主动计算是一个需要精心设计的操作点权衡(operating-point trade-off),而非越多越好的暴力堆算力。- ~+ Y, u0 h* X( q
05
9 F9 s0 S% |* f2 Y, J; E
" S4 J" S2 e4 d! M" u
3 W$ n! h6 N- V" l/ C/ ~MemBench:
8 {% U# w- ?. r+ Y* N% t7 j预测建立在坚实的记忆底座上: W/ C8 s) |4 u6 L1 x' B
: `' i+ N. k1 O5 z
在 MemBench 记忆基准测试的反思参与设定中,ProAct 展现了稳健的记忆能力:
2 [0 b& a9 ?6 }8 k: X6 {& n( ~
5 j0 j+ g/ F. N! p+ N, a1 N- M/ ?& A5 A0 R
这证明 ProAct 的未来预测绝不是凭空猜测,而是建立在对长期用户偏好和情感状态的准确推断之上的。+ H5 l5 h# @' }. ?( z' [! @( Y$ P: R" v
06/ h* m- O( X! X. u0 B5 f
! I+ i6 }1 g1 F3 k
% D1 C, e3 P+ ]4 [
结论
3 W8 H `* t) G4 N1 ?2 k/ f4 K, Y- M1 F5 e5 g3 U* K: w
ProAct 之所以能做到主动预判,不是靠猜,它通过持久记忆持续积累用户画像、历史偏好、实体事实和情感状态。当这些信息被系统性地组织和推理之后,Agent 在某些维度上甚至比用户自己更清楚“你下一步会问什么”。9 O" X' V6 s/ A" G8 j- y
从 ChatGPT 到目前市面上的各类 Agent,交互范式基本停留在“你问我答”。但人类真实的协作从来不是回合制答题。如果说 RAG 让 Agent 学会了“现查现答”,长期记忆让 Agent 学会了“铭记过去”,那么 ProAct 试图补全最后一块拼图——面向未来做准备。
$ N" M. s+ o' k; _; m# F2 n- l回到开头的场景:当你说完“安排明天的评审会”,一个真正主动的 Agent 就已经在为你准备 PPT 了——不是因为你吩咐了,而是因为它知道你一定会需要。) g; v a9 z1 D* @6 O
更好的 Agent 不只是回答得更快,而是在你开口之前就已经在正确的方向上做好了准备。9 ]8 _& p- {/ v3 |
想亲眼看看主动式 Agent 的效果?" n1 X2 i) T0 D+ b! G
访问 ProAct Demo 页面:, e* P& R: m# z% }# _; l1 p/ p
https://agentace-ai.github.io/proact-showcase// M i, U" L+ {5 f
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
$ t+ [* ~ D! {7 S公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。 |
|