找回密码
 立即注册
查看: 757|回复: 0

你的 AI 助理一闭嘴就在「发呆」?上交大 ProAct:把 Agent 的空闲时间变成 ...

[复制链接]

109

主题

28

回帖

401

积分

中级会员

积分
401
发表于 2026-5-28 16:05:17 | 显示全部楼层 |阅读模式
O6c6Ch2zoC29k43o.jpg 6 h9 O5 u+ b* K* \

8 h; t6 p) z5 G4 _5 v* B9 MProAct,一种将对话间的空闲时间转化为主动准备机会的新架构。: N3 y4 |4 E2 O9 `4 [  m
"帮我把明天上午10点的项目评审会安排一下。" 你刚对 AI 助理下达了指令。, H4 P9 N, K2 o% t* d
"会议已安排。" 然后呢?然后它就原地“下班”了。
  H# T, u4 H- Q7 `" `直到半小时后,你突然想起来:"对了,还得准备10页的项目进展汇报 PPT,要有风险评估、下一步计划和演讲备注。"9 u9 y9 T: ~# T) ^
这时,传统 Agent 才如梦初醒,开始翻阅历史记录、梳理项目进展、组织材料结构。但一个真正靠谱的人类助理,在你提了一嘴“明天开评审会”的时候,早就在脑海里过了一遍——你肯定需要进度摘要,大概率还要看风险点,甚至连 PPT 大纲都已经在后台默默帮你搭好了。
& s- j, U3 V. G: S; f上海交通大学 APEX 实验室提出了ProAct,一种将对话间的空闲时间转化为主动准备机会的新架构。它不再等你把每一个需求都像挤牙膏一样说出口,而是在你沉默的时间里,默默为你“偷偷备课”。
% m- [  f" b( _9 F5 w JrZracZjceDJomDA.jpg : l- [) k7 X  M* Y: A5 w1 S: U
5 o; Y! N! l1 J& d9 A" d
图 1:传统 Reactive Agent(上)vs ProAct(下)的交互时间线对比。传统 Agent 在完成任务后进入休眠,用户提出新需求时才从零开始准备;ProAct 则利用空闲窗口预判可能的后续需求(如评审材料),提前检索证据并组织内容,在用户开口前就已准备就绪。
7 w# V" B7 N3 {8 ]1 l9 j论文标题:Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents
* Q8 t- G2 ~2 V, R作者:Haoyi Hu, Qirong Lyu, Xianghan Kong, WEIwen Liu, Jianghao Lin, Zixuan Guo, Yan Xu, Yasheng Wang, Weinan Zhang, Yong Yu5 R+ r9 C7 y, n
单位:上海交通大学、腾讯
1 ~: y5 r& @4 ?5 A% T! k$ D) q论文链接:https://arxiv.org/abs/2605.25971
6 u$ k; ]$ O3 e( l7 D" S6 `项目地址:https://github.com/AgentACE-AI/ProAct
$ w3 f5 h2 N6 n  i* S  ?8 ODemo 页面:https://agentace-ai.github.io/proact-showcase/7 F. E$ ~6 @" H  n, Q$ R
01
# k9 L/ r( l: i7 X! ~4 J

# N3 @2 q, N5 b) `
1 o* S: V8 k/ I0 `Agent 为什么总像“客服”?
: g" a" X+ J+ x$ Z- B心理学中有一个概念叫前摄应对(Proactive Coping):人在预判到未来需求时,会提前积攒资源、预做准备,而非等到火烧眉毛才行动。: X3 R5 j4 c6 ]' ]
然而今天绝大多数大模型 Agent,本质上依然是 Reactive Agent:你拨一下,它转一下;你不问,它就休眠。它们把用户两次交互之间的空闲时间当成纯粹的空白。- x! e) P$ K$ Y9 K* z; y
ProAct 的核心主张:空闲时间不是空白,而是被浪费的算力窗口。把一部分工作提前搬到空闲窗口,让 Agent 在你沉默的时间里主动学习和准备。1 v5 G# }6 ^! L0 T! w
02, D( B1 c3 F, K
0 H, R) n4 K. q  O- C  j3 ]  y/ }
( L6 |3 F  k9 c. A- C% N
ProAct 架构:' r; P+ N, d9 X4 d
从“瞎忙”到“神预判”的三级流水线
4 _9 S; s8 N) T如果随便给 Agent 塞一个后台搜索的权限,它大概率会变成“智能骚扰”——一有空就疯狂弹窗,推一堆没用的信息。ProAct 不是在后台盲目乱搜,而是设计了一条严谨的主动计算流水线:预测 → 筛选 → 交付。1 z/ [/ @& s+ T# q: C
Hv2nM2HKnDnixK2D.jpg
' f0 i, E5 a9 y, m8 [, B' C4 F1 E7 ~  L. G
图 2:ProAct 系统总览。前台交互完成后,系统更新持久记忆(用户画像、知识库、对话轨迹),随即进入空闲期主动计算:Future-State Prediction 预测未来需求,Idle-Time Acquisition 对高价值候选执行定向证据检索与知识合成,最终由 Utility-Aware Delivery Policy 决定推送、排队还是静默存储。
. L* F- a0 ~- A5 w& |# x' H4 P3 {Future-State Prediction:精准锚定未来需求
: l# K& z: O7 R& l! x( K3 G预测模块从两个源头生成候选需求:
: `! U# U2 y, D- v( B+ x/ q. R. J
: X+ \. Y: o' }& i1 \- I, }

    ' S8 {/ p8 b) f& o: [) ^
  •   W% }9 A3 N# A
    本地场景推断:从最近几轮对话中直接推断可能的后续需求(如安排评审会 → 大概率需要评审材料)
    " a8 ?+ z+ ]9 `3 V6 H8 H9 G3 s; y2 a

. n/ Y) w3 y- G# L
    9 S7 z5 t1 ^( \/ g
  • 6 d5 P4 c) g0 m5 Y
    关联扩展:从持久记忆中的用户画像、历史摘要、未完成目标中扩展相关方向
    ! \% O+ p; w$ M3 N4 P* D6 N! Y0 W. b0 N: Z  F$ {

% `9 \5 y, W7 Z& X. [9 y5 X1 _此外,当记忆层检测到过时、不完整或证据薄弱的知识条目时,这些记忆缺口也会被转化为候选需求——让记忆维护直接驱动信息获取,而非被动等待查询。候选经过置信度过滤和去重后,输出一组紧凑的预测集合。2 N: u8 U* X; R2 b; Q7 W/ h& c" Z
回到开头的例子:你刚说完“安排明天的评审会”,预测模块已经推断出“需要项目进展材料”和“可能要看风险点”两个高置信候选。7 u$ J5 ]& G+ u( G
Idle-Time Acquisition:算力花在刀刃上2 s% X' y5 g$ G" e
每一个候选需求,都要经过四维价值打分:
- N) D" o5 D$ E1 [4 A! {, H1.用户相关性(Relevance):和当前目标关联多大?
) S. G3 d4 {! \, y; k" R2 [2.知识缺口(Gap):记忆里是不是已经有答案了?% O! b1 C, J0 [& Y" H9 I
3.增量价值(Value):现在准备能省去用户多少未来的麻烦?1 S- b+ u- E+ W" ?4 v, H
4.时效性(Timeliness):现在准备时机对吗?
6 x4 Q: f* k3 z* P( y: \9 O只有总分超过阈值 θ_val 的候选才真正获得算力执行。而执行时,系统还做了增量搜索优化:已有的证据直接复用,部分覆盖的只补缺口,完全没有的才启动迭代搜索。这使得空闲计算不是从零开始的全量搜索,而是增量拼图。
6 H- G" F9 q5 K回到评审会的例子:你的项目进展数据上周刚更新过,直接复用;风险评估是空白,系统才启动定向搜索补上这块缺口。
$ q- u" d7 o: a" q% L% U9 \5 @! UUtility-Aware Delivery:推还是不推,这是个问题
6 V0 g) k; w/ I: \准备好材料后,ProAct 绝不会无脑弹窗。交付策略基于一个效用公式做决策:
: n% D3 ^( N. }5 H9 p& \  C' c7 w; [7 _5 L0 w$ v8 A" ^7 U4 F
U(x) = E[V(x)] − C(t)
. l! }% B% P; l
V 是预期信息价值,C 是打断用户的成本。只有当 U 超过自适应阈值 τ 时,系统才决定交付。交付方式分三档:
3 [, |! n. ?, o- ?6 E; t( Q# T) h( M( L$ o' I

    ! \3 q  ], A$ |1 c( d" S
  •   S9 Y5 c% [5 |/ y0 l
    Push(主动推送):价值极高、时机刚好,直接通知(如:"我已经把评审材料大纲整理好了,需要展开吗?")0 o  I3 \  K: {, [  U& {; E

    4 e& I+ n+ Q) r7 d5 B
  I. ]: k4 z' H/ i4 O# o

    9 i/ H/ e: Z2 X# ?/ `

  • & y% p1 z5 }! U3 V- f" h; L" k) wQueue(排队等待):有用但不紧急,等用户下次提问时自然融入回复
    : ^- d7 Y( X% @3 w/ H4 x" o( f
    6 k- V( {# {$ G+ C/ f+ L; D: j

& ^- O" h' a0 Z! S% T

    7 {8 P3 ]" M: z5 k9 }
  • # X4 g" {) l0 h
    Store(静默存储):大概率有用但现在不宜打扰,存入长期记忆,等用户需要时瞬间调出7 [2 G" v; O; X. }1 H
    : G; j& ^  s6 p4 c/ y
% M. t9 v/ x5 \2 J
03
  M4 L/ L; x0 X

+ ?4 q- [2 ?/ L  f5 b$ {, }
7 U) `4 X3 e7 s0 W! ~ProActEval:200 个场景的硬核评测% c$ H+ b. D& J. c" S
- s, P5 K+ U; c8 s/ T
评估一个主动式 Agent,不能只考“记忆力”,还要考它能不能在你开口前就把活儿干了。为此,论文构建了全新评测基准ProActEval4 R$ |0 X9 f$ N9 G, ]  w, ]
, A7 F/ `3 d9 I" b
    ( D+ A+ _  j% ?6 K& n/ C; l

  • # y; L# F# r3 e- y4 j. A200 个场景,覆盖 40 个领域(金融规划、软件发布、网络安全、搬家、税务申报……)
    ; V0 A/ s2 ^5 W  n* n: |. s! B- P; _  s1 `1 R# k/ V/ c
0 p# t6 i+ |  E$ L9 Z
    . f* k9 H6 @, D3 f6 X$ I

  • / x1 l$ [* `! v# ^( ~- ^5 N每个场景自带Fact Sheet(12-37 条原子化可验证事实,全部虚构实体)
    . t4 q* `1 a4 W* ~( E
    0 c# m5 Z, c$ [! f2 I; D+ Z# _

9 ~$ g$ @) N2 t4 ~& J8 z; t* O
    , y$ v0 E4 a4 O, {) u; y: m

  • 9 H; a! C( M0 w5 m每个场景包含5-15 条用户需求,标注了重要性等级、依赖链和可预测性关系
    " \) q# D. z; z1 U
    # {$ ^2 ?! K0 W) h$ ?

! d9 ?. \; G9 x0 W; u6 h) w3 C, s( x

    : @0 O0 l% U  E' N  m( j

  • # Z# H. a1 V& ?$ I  AAgent运行时看不到gold label——不能偷看未来需求,只能走一步看一步
    . t9 N7 F/ @& T# n3 X6 P' H
    1 A: P. i% ~2 D
( U+ g9 I% i- p* c( i
实验设置了三个对比条件:$ R, h: G5 W" f, e9 @/ m* f. V  J: z
UTGZ1M8MnX5grG8r.jpg ) @5 l# r. d/ ~
1 i% _; j7 o6 C( y- D2 V, a) |2 u
主实验结果
0 W$ }, S' F" H2 ^: t; m" ] yaUA5Fa30TU9IU0O.jpg
& q$ m3 |4 t& }* m) c
6 ^  r4 @" M9 K: o, J: F0 t关键观察:原本需要来回拉扯 8 轮才能完成的任务,现在不到 7 轮搞定;幻觉率暴降近三成——因为有充足的后台时间做事实检索,Agent 回答得更准了。) i$ \4 [7 e7 ?6 |
对比 ProactiveAgent 基线5 v( m, ~4 `8 ]( A1 a- ?0 z1 ^
论文还将 ProAct 与公开的 ProactiveAgent (Lu et al., 2024) 决策协议做了对比。ProactiveAgent 虽然在 69.6% 的 turn 上都尝试了主动任务,但方向不对:: P1 i3 t7 D8 |6 n6 q6 ]; E& w
GmNIiEI77hh2I728.jpg 6 K8 H$ o$ I) n2 ]- M( ]& c
; u2 ~5 V6 e" e! i
这说明:光有主动尝试的意愿远远不够——方向对了才有价值。ProactiveAgent 做了大量主动尝试但几乎全部打偏,ProAct 的预测精度使得每一次主动准备都落在用户真正会问的方向上。* Z1 p" M4 [6 t( Q* x
04' c3 f! t$ p# b

$ ~- R+ g5 u* q* z% n" h2 o$ B
' G" V1 l8 g3 g! q关键发现:% u5 L; g$ x  m" D0 a0 T% {
算力花在哪,比花多少更重要
8 X; I8 d2 z9 Z1 Z, o9 z
: w! N$ o, y0 `0 _
论文中设置了一个非常有意思的对照组——Undirected Idle。这个条件同样在后台消耗算力(平均每个场景 69.8k active tokens),但因为没有 Future-State Prediction 的引导,像个无头苍蝇一样乱搜。
; {" R1 S3 X! [8 m+ o  x( e* n结果:它的 T100 仅比纯 Reactive 下降 0.07 turns,几乎没有改善。而 ProAct 虽然多花了 60% 的 token(111.8k),但换来了 T100 下降 1.2 turns、覆盖率提升 7.2%、幻觉率下降 28.1% 的全面收益。
* U# N. K1 A8 \* R空闲时间计算的价值不在于多算,而在于算对地方
& g. @8 p* A3 q5 H1 g' p进一步的搜索预算扫描(k = 4, 8, 12, 16)验证了这一点。随着 k 增加,Anticipation Recall 从 0.253 单调上升至 0.432;但 User Effort 并不单调下降——一旦主要的可预测需求被覆盖,追加搜索追的是边际越来越低的长尾需求,active-token 成本却持续攀升。
5 B8 m7 S; W* u& ?) Y4 H; c yINRtFgrnRcGCR5G.jpg
4 x! D# m9 |) q( B( j8 O% ^+ f
: e/ F0 C* T6 }: I图3:搜索预算分析(50 场景子集)。横轴为搜索预算 k,四个面板分别展示 T100、User Effort、Anticipation Recall 和 Active Token 成本。灰色区段标注了相同预算下 Directed Idle 与 Undirected Idle 的差距——在每一个预算点上,有预测引导的定向搜索都优于无方向的盲目搜索。但随着预算增加,效率收益趋于平缓而成本持续攀升。* g5 e4 ~9 D6 e1 _0 ?
主动计算是一个需要精心设计的操作点权衡(operating-point trade-off),而非越多越好的暴力堆算力。
7 ^! D" u- q3 ?7 V05
. |* [. E$ j( }  J% w) a

5 V/ v% y  _$ f; k2 t9 ~  o5 T0 r3 Y1 g
MemBench:1 T4 y- z& s+ w6 y
预测建立在坚实的记忆底座上, ~3 P6 j& i6 x" \- Q

% s5 H* q" f- c. ~/ l) F$ [在 MemBench 记忆基准测试的反思参与设定中,ProAct 展现了稳健的记忆能力:( ?' L6 O7 o5 }7 m, G4 J
v1jqWuB17LU1qSbj.jpg 5 a  i  \) P: q  i- p

% v. d: X2 a$ b这证明 ProAct 的未来预测绝不是凭空猜测,而是建立在对长期用户偏好和情感状态的准确推断之上的。1 p# T0 U5 E4 X3 v# C, y
06
3 L- b  d! \( D! R! A8 l5 D
( E) i# L$ M9 u, H3 |! O# r
  P4 V! f6 o( J% R
结论$ E$ H8 w# O8 T! x# z

6 ?3 N  r7 y& n, b/ [& w! T9 yProAct 之所以能做到主动预判,不是靠猜,它通过持久记忆持续积累用户画像、历史偏好、实体事实和情感状态。当这些信息被系统性地组织和推理之后,Agent 在某些维度上甚至比用户自己更清楚“你下一步会问什么”。
& C0 P) X" ^5 d, k2 {* t从 ChatGPT 到目前市面上的各类 Agent,交互范式基本停留在“你问我答”。但人类真实的协作从来不是回合制答题。如果说 RAG 让 Agent 学会了“现查现答”,长期记忆让 Agent 学会了“铭记过去”,那么 ProAct 试图补全最后一块拼图——面向未来做准备。
- A0 j, ^' `* Z6 M5 i! L1 j' |回到开头的场景:当你说完“安排明天的评审会”,一个真正主动的 Agent 就已经在为你准备 PPT 了——不是因为你吩咐了,而是因为它知道你一定会需要。. n/ [' q* r, n' @/ \# |8 L+ k8 S
更好的 Agent 不只是回答得更快,而是在你开口之前就已经在正确的方向上做好了准备。' H' z+ ~* [; O$ D4 g+ p8 F
想亲眼看看主动式 Agent 的效果?
- X/ F$ G: U4 A访问 ProAct Demo 页面:
. H; C% n, z9 F- _7 _) D8 n5 m# t! zhttps://agentace-ai.github.io/proact-showcase/, i9 ~7 y, w' ^* Z6 v! O
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!% u0 K" i/ v  M6 Y/ r
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
集群智慧云科服专利申请服务
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表