你的 AI 助理一闭嘴就在「发呆」？上交大 ProAct：把 Agent 的空闲时间变成 ...

@Xizi_GUMZsyxh · 发表于 2026-5-28 16:05:17

ProAct，一种将对话间的空闲时间转化为主动准备机会的新架构。
"帮我把明天上午10点的项目评审会安排一下。" 你刚对 AI 助理下达了指令。
"会议已安排。" 然后呢？然后它就原地“下班”了。
直到半小时后，你突然想起来："对了，还得准备10页的项目进展汇报 PPT，要有风险评估、下一步计划和演讲备注。"
这时，传统 Agent 才如梦初醒，开始翻阅历史记录、梳理项目进展、组织材料结构。但一个真正靠谱的人类助理，在你提了一嘴“明天开评审会”的时候，早就在脑海里过了一遍——你肯定需要进度摘要，大概率还要看风险点，甚至连 PPT 大纲都已经在后台默默帮你搭好了。
上海交通大学 APEX 实验室提出了ProAct，一种将对话间的空闲时间转化为主动准备机会的新架构。它不再等你把每一个需求都像挤牙膏一样说出口，而是在你沉默的时间里，默默为你“偷偷备课”。

图 1：传统 Reactive Agent（上）vs ProAct（下）的交互时间线对比。传统 Agent 在完成任务后进入休眠，用户提出新需求时才从零开始准备；ProAct 则利用空闲窗口预判可能的后续需求（如评审材料），提前检索证据并组织内容，在用户开口前就已准备就绪。
论文标题：Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents
作者：Haoyi Hu, Qirong Lyu, Xianghan Kong, WEIwen Liu, Jianghao Lin, Zixuan Guo, Yan Xu, Yasheng Wang, Weinan Zhang, Yong Yu
单位：上海交通大学、腾讯
论文链接：https://arxiv.org/abs/2605.25971
项目地址：https://github.com/AgentACE-AI/ProAct
Demo 页面：https://agentace-ai.github.io/proact-showcase/
014 l7 K8 s9 ~$ q- c1 o, a5 g& _

Agent 为什么总像“客服”？
心理学中有一个概念叫前摄应对（Proactive Coping）：人在预判到未来需求时，会提前积攒资源、预做准备，而非等到火烧眉毛才行动。
然而今天绝大多数大模型 Agent，本质上依然是 Reactive Agent：你拨一下，它转一下；你不问，它就休眠。它们把用户两次交互之间的空闲时间当成纯粹的空白。
ProAct 的核心主张：空闲时间不是空白，而是被浪费的算力窗口。把一部分工作提前搬到空闲窗口，让 Agent 在你沉默的时间里主动学习和准备。
029 |4 D1 W3 S+ e# O, r9 @( f2 q

ProAct 架构：
从“瞎忙”到“神预判”的三级流水线
如果随便给 Agent 塞一个后台搜索的权限，它大概率会变成“智能骚扰”——一有空就疯狂弹窗，推一堆没用的信息。ProAct 不是在后台盲目乱搜，而是设计了一条严谨的主动计算流水线：预测 → 筛选 → 交付。

图 2：ProAct 系统总览。前台交互完成后，系统更新持久记忆（用户画像、知识库、对话轨迹），随即进入空闲期主动计算：Future-State Prediction 预测未来需求，Idle-Time Acquisition 对高价值候选执行定向证据检索与知识合成，最终由 Utility-Aware Delivery Policy 决定推送、排队还是静默存储。
▎Future-State Prediction：精准锚定未来需求
预测模块从两个源头生成候选需求：

% e; f" s6 S. j' z$ X+ l4 F+ u本地场景推断：从最近几轮对话中直接推断可能的后续需求（如安排评审会 → 大概率需要评审材料）- C& E: Y2 P0 v

P u( \7 G1 k* |2 P7 r3 x; H, y

. Y7 r, Q2 s. _
关联扩展：从持久记忆中的用户画像、历史摘要、未完成目标中扩展相关方向, y9 h9 O! G9 I7 ^/ G0 m1 o2 R
" n( a$ g- [$ S d' b) ]% B) r

此外，当记忆层检测到过时、不完整或证据薄弱的知识条目时，这些记忆缺口也会被转化为候选需求——让记忆维护直接驱动信息获取，而非被动等待查询。候选经过置信度过滤和去重后，输出一组紧凑的预测集合。
回到开头的例子：你刚说完“安排明天的评审会”，预测模块已经推断出“需要项目进展材料”和“可能要看风险点”两个高置信候选。
▎Idle-Time Acquisition：算力花在刀刃上
每一个候选需求，都要经过四维价值打分：
1.用户相关性（Relevance）：和当前目标关联多大？
2.知识缺口（Gap）：记忆里是不是已经有答案了？
3.增量价值（Value）：现在准备能省去用户多少未来的麻烦？
4.时效性（Timeliness）：现在准备时机对吗？
只有总分超过阈值 θ_val 的候选才真正获得算力执行。而执行时，系统还做了增量搜索优化：已有的证据直接复用，部分覆盖的只补缺口，完全没有的才启动迭代搜索。这使得空闲计算不是从零开始的全量搜索，而是增量拼图。
回到评审会的例子：你的项目进展数据上周刚更新过，直接复用；风险评估是空白，系统才启动定向搜索补上这块缺口。
▎Utility-Aware Delivery：推还是不推，这是个问题
准备好材料后，ProAct 绝不会无脑弹窗。交付策略基于一个效用公式做决策：

U(x) = E[V(x)] − C(t)

V 是预期信息价值，C 是打断用户的成本。只有当 U 超过自适应阈值 τ 时，系统才决定交付。交付方式分三档：

* o$ U; n( J. D- k- _$ C4 h! p, _1 ]8 XPush（主动推送）：价值极高、时机刚好，直接通知（如："我已经把评审材料大纲整理好了，需要展开吗？"）
7 R+ J; c2 o6 D) X. A8 c4 U. S. Y# E( n8 S- A6 I

3 _( ^# R1 n# [
Queue（排队等待）：有用但不紧急，等用户下次提问时自然融入回复% R+ o) G$ u1 ?- \2 ?5 \; Q
, `$ Z2 ~! o0 F" s) V \

. V) P* q" x0 h5 I% A! o: Z9 X: GStore（静默存储）：大概率有用但现在不宜打扰，存入长期记忆，等用户需要时瞬间调出
& f; t0 {! w# ~$ ?, f0 m' f
/ x% @; o5 C0 x% ]

03& x% e+ b3 x! s' G V" l7 r8 t

ProActEval：200 个场景的硬核评测* o* h- J G2 N0 ^: G3 x/ s4 [

评估一个主动式 Agent，不能只考“记忆力”，还要考它能不能在你开口前就把活儿干了。为此，论文构建了全新评测基准ProActEval：

% y4 h: k* {& U
200 个场景，覆盖 40 个领域（金融规划、软件发布、网络安全、搬家、税务申报……）
3 w3 v1 M% w5 `/ X$ k4 B& K
' @1 v0 F* \4 \# J$ s9 c6 X) b

- H# A8 E1 P$ U& r. N
每个场景自带Fact Sheet（12-37 条原子化可验证事实，全部虚构实体）% r4 P+ x Z' O9 F/ t8 J* c4 I9 T
& E2 O5 Q9 S/ C2 W0 I# ?

6 ]* O+ l( f6 P6 a2 i/ A
每个场景包含5-15 条用户需求，标注了重要性等级、依赖链和可预测性关系4 A1 a' M& v- S* ] K. N

. b1 L* T( R0 A

: \1 V r9 \5 nAgent运行时看不到gold label——不能偷看未来需求，只能走一步看一步( W& ?2 @; K- O, p( @1 A
" n" e# s* h8 M: @

实验设置了三个对比条件：

▎主实验结果

关键观察：原本需要来回拉扯 8 轮才能完成的任务，现在不到 7 轮搞定；幻觉率暴降近三成——因为有充足的后台时间做事实检索，Agent 回答得更准了。
▎对比 ProactiveAgent 基线
论文还将 ProAct 与公开的 ProactiveAgent (Lu et al., 2024) 决策协议做了对比。ProactiveAgent 虽然在 69.6% 的 turn 上都尝试了主动任务，但方向不对：

这说明：光有“主动尝试”的意愿远远不够——方向对了才有价值。ProactiveAgent 做了大量主动尝试但几乎全部打偏，ProAct 的预测精度使得每一次主动准备都落在用户真正会问的方向上。
049 N2 {, L2 I1 D

关键发现：
算力花在哪，比花多少更重要
W* v; w6 p% w0 S
论文中设置了一个非常有意思的对照组——Undirected Idle。这个条件同样在后台消耗算力（平均每个场景 69.8k active tokens），但因为没有 Future-State Prediction 的引导，像个无头苍蝇一样乱搜。
结果：它的 T100 仅比纯 Reactive 下降 0.07 turns，几乎没有改善。而 ProAct 虽然多花了 60% 的 token（111.8k），但换来了 T100 下降 1.2 turns、覆盖率提升 7.2%、幻觉率下降 28.1% 的全面收益。
空闲时间计算的价值不在于“多算”，而在于“算对地方”。
进一步的搜索预算扫描（k = 4, 8, 12, 16）验证了这一点。随着 k 增加，Anticipation Recall 从 0.253 单调上升至 0.432；但 User Effort 并不单调下降——一旦主要的可预测需求被覆盖，追加搜索追的是边际越来越低的长尾需求，active-token 成本却持续攀升。

图3：搜索预算分析（50 场景子集）。横轴为搜索预算 k，四个面板分别展示 T100、User Effort、Anticipation Recall 和 Active Token 成本。灰色区段标注了相同预算下 Directed Idle 与 Undirected Idle 的差距——在每一个预算点上，有预测引导的定向搜索都优于无方向的盲目搜索。但随着预算增加，效率收益趋于平缓而成本持续攀升。
主动计算是一个需要精心设计的操作点权衡（operating-point trade-off），而非越多越好的暴力堆算力。
05
9 F9 s0 S% |* f2 Y, J; E

MemBench：
预测建立在坚实的记忆底座上: W/ C8 s) |4 u6 L1 x' B

在 MemBench 记忆基准测试的反思参与设定中，ProAct 展现了稳健的记忆能力：

这证明 ProAct 的未来预测绝不是凭空猜测，而是建立在对长期用户偏好和情感状态的准确推断之上的。
06/ h* m- O( X! X. u0 B5 f

结论
3 W8 H `* t) G4 N1 ?2 k
ProAct 之所以能做到主动预判，不是靠猜，它通过持久记忆持续积累用户画像、历史偏好、实体事实和情感状态。当这些信息被系统性地组织和推理之后，Agent 在某些维度上甚至比用户自己更清楚“你下一步会问什么”。
从 ChatGPT 到目前市面上的各类 Agent，交互范式基本停留在“你问我答”。但人类真实的协作从来不是回合制答题。如果说 RAG 让 Agent 学会了“现查现答”，长期记忆让 Agent 学会了“铭记过去”，那么 ProAct 试图补全最后一块拼图——面向未来做准备。
回到开头的场景：当你说完“安排明天的评审会”，一个真正主动的 Agent 就已经在为你准备 PPT 了——不是因为你吩咐了，而是因为它知道你一定会需要。
更好的 Agent 不只是回答得更快，而是在你开口之前就已经在正确的方向上做好了准备。
想亲眼看看主动式 Agent 的效果？
访问 ProAct Demo 页面：
https://agentace-ai.github.io/proact-showcase/
未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！
公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

		自动登录	找回密码
密码			立即注册

你的 AI 助理一闭嘴就在「发呆」？上交大 ProAct：把 Agent 的空闲时间变成 ...

浏览过的版块