你的 AI 助理一闭嘴就在「发呆」？上交大 ProAct：把 Agent 的空闲时间变成 ...

@Xizi_GUMZsyxh · 发表于 2026-5-28 16:05:17

ProAct，一种将对话间的空闲时间转化为主动准备机会的新架构。
"帮我把明天上午10点的项目评审会安排一下。" 你刚对 AI 助理下达了指令。
"会议已安排。" 然后呢？然后它就原地“下班”了。
直到半小时后，你突然想起来："对了，还得准备10页的项目进展汇报 PPT，要有风险评估、下一步计划和演讲备注。"
这时，传统 Agent 才如梦初醒，开始翻阅历史记录、梳理项目进展、组织材料结构。但一个真正靠谱的人类助理，在你提了一嘴“明天开评审会”的时候，早就在脑海里过了一遍——你肯定需要进度摘要，大概率还要看风险点，甚至连 PPT 大纲都已经在后台默默帮你搭好了。
上海交通大学 APEX 实验室提出了ProAct，一种将对话间的空闲时间转化为主动准备机会的新架构。它不再等你把每一个需求都像挤牙膏一样说出口，而是在你沉默的时间里，默默为你“偷偷备课”。

图 1：传统 Reactive Agent（上）vs ProAct（下）的交互时间线对比。传统 Agent 在完成任务后进入休眠，用户提出新需求时才从零开始准备；ProAct 则利用空闲窗口预判可能的后续需求（如评审材料），提前检索证据并组织内容，在用户开口前就已准备就绪。
论文标题：Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents
作者：Haoyi Hu, Qirong Lyu, Xianghan Kong, WEIwen Liu, Jianghao Lin, Zixuan Guo, Yan Xu, Yasheng Wang, Weinan Zhang, Yong Yu
单位：上海交通大学、腾讯
论文链接：https://arxiv.org/abs/2605.25971
项目地址：https://github.com/AgentACE-AI/ProAct
Demo 页面：https://agentace-ai.github.io/proact-showcase/
01
# k9 L/ r( l: i7 X! ~4 J

Agent 为什么总像“客服”？
心理学中有一个概念叫前摄应对（Proactive Coping）：人在预判到未来需求时，会提前积攒资源、预做准备，而非等到火烧眉毛才行动。
然而今天绝大多数大模型 Agent，本质上依然是 Reactive Agent：你拨一下，它转一下；你不问，它就休眠。它们把用户两次交互之间的空闲时间当成纯粹的空白。
ProAct 的核心主张：空闲时间不是空白，而是被浪费的算力窗口。把一部分工作提前搬到空闲窗口，让 Agent 在你沉默的时间里主动学习和准备。
02, D( B1 c3 F, K

ProAct 架构：
从“瞎忙”到“神预判”的三级流水线
如果随便给 Agent 塞一个后台搜索的权限，它大概率会变成“智能骚扰”——一有空就疯狂弹窗，推一堆没用的信息。ProAct 不是在后台盲目乱搜，而是设计了一条严谨的主动计算流水线：预测 → 筛选 → 交付。

图 2：ProAct 系统总览。前台交互完成后，系统更新持久记忆（用户画像、知识库、对话轨迹），随即进入空闲期主动计算：Future-State Prediction 预测未来需求，Idle-Time Acquisition 对高价值候选执行定向证据检索与知识合成，最终由 Utility-Aware Delivery Policy 决定推送、排队还是静默存储。
▎Future-State Prediction：精准锚定未来需求
预测模块从两个源头生成候选需求：

W% }9 A3 N# A
本地场景推断：从最近几轮对话中直接推断可能的后续需求（如安排评审会 → 大概率需要评审材料）
" a8 ?+ z+ ]9 `3 V6 H8 H9 G3 s; y2 a

6 d5 P4 c) g0 m5 Y
关联扩展：从持久记忆中的用户画像、历史摘要、未完成目标中扩展相关方向
! \% O+ p; w$ M3 N4 P* D6 N! Y0 W. b0 N: Z F$ {

此外，当记忆层检测到过时、不完整或证据薄弱的知识条目时，这些记忆缺口也会被转化为候选需求——让记忆维护直接驱动信息获取，而非被动等待查询。候选经过置信度过滤和去重后，输出一组紧凑的预测集合。
回到开头的例子：你刚说完“安排明天的评审会”，预测模块已经推断出“需要项目进展材料”和“可能要看风险点”两个高置信候选。
▎Idle-Time Acquisition：算力花在刀刃上
每一个候选需求，都要经过四维价值打分：
1.用户相关性（Relevance）：和当前目标关联多大？
2.知识缺口（Gap）：记忆里是不是已经有答案了？
3.增量价值（Value）：现在准备能省去用户多少未来的麻烦？
4.时效性（Timeliness）：现在准备时机对吗？
只有总分超过阈值 θ_val 的候选才真正获得算力执行。而执行时，系统还做了增量搜索优化：已有的证据直接复用，部分覆盖的只补缺口，完全没有的才启动迭代搜索。这使得空闲计算不是从零开始的全量搜索，而是增量拼图。
回到评审会的例子：你的项目进展数据上周刚更新过，直接复用；风险评估是空白，系统才启动定向搜索补上这块缺口。
▎Utility-Aware Delivery：推还是不推，这是个问题
准备好材料后，ProAct 绝不会无脑弹窗。交付策略基于一个效用公式做决策：

U(x) = E[V(x)] − C(t)

V 是预期信息价值，C 是打断用户的成本。只有当 U 超过自适应阈值 τ 时，系统才决定交付。交付方式分三档：

S9 Y5 c% [5 |/ y0 l
Push（主动推送）：价值极高、时机刚好，直接通知（如："我已经把评审材料大纲整理好了，需要展开吗？"）0 o I3 \ K: {, [ U& {; E

4 e& I+ n+ Q) r7 d5 B

& y% p1 z5 }! U3 V- f" h; L" k) wQueue（排队等待）：有用但不紧急，等用户下次提问时自然融入回复
: ^- d7 Y( X% @3 w/ H4 x" o( f
6 k- V( {# {$ G+ C/ f+ L; D: j

# X4 g" {) l0 h
Store（静默存储）：大概率有用但现在不宜打扰，存入长期记忆，等用户需要时瞬间调出7 [2 G" v; O; X. }1 H
: G; j& ^ s6 p4 c/ y

03
M4 L/ L; x0 X

ProActEval：200 个场景的硬核评测% c$ H+ b. D& J. c" S

评估一个主动式 Agent，不能只考“记忆力”，还要考它能不能在你开口前就把活儿干了。为此，论文构建了全新评测基准ProActEval：

# y; L# F# r3 e- y4 j. A200 个场景，覆盖 40 个领域（金融规划、软件发布、网络安全、搬家、税务申报……）
; V0 A/ s2 ^5 W n* n: |. s! B- P; _ s1 `1 R# k/ V/ c

/ x1 l$ [* `! v# ^( ~- ^5 N每个场景自带Fact Sheet（12-37 条原子化可验证事实，全部虚构实体）
. t4 q* `1 a4 W* ~( E
0 c# m5 Z, c$ [! f2 I; D+ Z# _

9 H; a! C( M0 w5 m每个场景包含5-15 条用户需求，标注了重要性等级、依赖链和可预测性关系
" \) q# D. z; z1 U
# {$ ^2 ?! K0 W) h$ ?

# Z# H. a1 V& ?$ I AAgent运行时看不到gold label——不能偷看未来需求，只能走一步看一步
. t9 N7 F/ @& T# n3 X6 P' H
1 A: P. i% ~2 D

实验设置了三个对比条件：

▎主实验结果

关键观察：原本需要来回拉扯 8 轮才能完成的任务，现在不到 7 轮搞定；幻觉率暴降近三成——因为有充足的后台时间做事实检索，Agent 回答得更准了。
▎对比 ProactiveAgent 基线
论文还将 ProAct 与公开的 ProactiveAgent (Lu et al., 2024) 决策协议做了对比。ProactiveAgent 虽然在 69.6% 的 turn 上都尝试了主动任务，但方向不对：

这说明：光有“主动尝试”的意愿远远不够——方向对了才有价值。ProactiveAgent 做了大量主动尝试但几乎全部打偏，ProAct 的预测精度使得每一次主动准备都落在用户真正会问的方向上。
04' c3 f! t$ p# b

关键发现：
算力花在哪，比花多少更重要
8 X; I8 d2 z9 Z1 Z, o9 z
论文中设置了一个非常有意思的对照组——Undirected Idle。这个条件同样在后台消耗算力（平均每个场景 69.8k active tokens），但因为没有 Future-State Prediction 的引导，像个无头苍蝇一样乱搜。
结果：它的 T100 仅比纯 Reactive 下降 0.07 turns，几乎没有改善。而 ProAct 虽然多花了 60% 的 token（111.8k），但换来了 T100 下降 1.2 turns、覆盖率提升 7.2%、幻觉率下降 28.1% 的全面收益。
空闲时间计算的价值不在于“多算”，而在于“算对地方”。
进一步的搜索预算扫描（k = 4, 8, 12, 16）验证了这一点。随着 k 增加，Anticipation Recall 从 0.253 单调上升至 0.432；但 User Effort 并不单调下降——一旦主要的可预测需求被覆盖，追加搜索追的是边际越来越低的长尾需求，active-token 成本却持续攀升。

图3：搜索预算分析（50 场景子集）。横轴为搜索预算 k，四个面板分别展示 T100、User Effort、Anticipation Recall 和 Active Token 成本。灰色区段标注了相同预算下 Directed Idle 与 Undirected Idle 的差距——在每一个预算点上，有预测引导的定向搜索都优于无方向的盲目搜索。但随着预算增加，效率收益趋于平缓而成本持续攀升。
主动计算是一个需要精心设计的操作点权衡（operating-point trade-off），而非越多越好的暴力堆算力。
05
. |* [. E$ j( } J% w) a

MemBench：
预测建立在坚实的记忆底座上, ~3 P6 j& i6 x" \- Q

在 MemBench 记忆基准测试的反思参与设定中，ProAct 展现了稳健的记忆能力：

这证明 ProAct 的未来预测绝不是凭空猜测，而是建立在对长期用户偏好和情感状态的准确推断之上的。
06
3 L- b d! \( D! R! A8 l5 D

结论$ E$ H8 w# O8 T! x# z

ProAct 之所以能做到主动预判，不是靠猜，它通过持久记忆持续积累用户画像、历史偏好、实体事实和情感状态。当这些信息被系统性地组织和推理之后，Agent 在某些维度上甚至比用户自己更清楚“你下一步会问什么”。
从 ChatGPT 到目前市面上的各类 Agent，交互范式基本停留在“你问我答”。但人类真实的协作从来不是回合制答题。如果说 RAG 让 Agent 学会了“现查现答”，长期记忆让 Agent 学会了“铭记过去”，那么 ProAct 试图补全最后一块拼图——面向未来做准备。
回到开头的场景：当你说完“安排明天的评审会”，一个真正主动的 Agent 就已经在为你准备 PPT 了——不是因为你吩咐了，而是因为它知道你一定会需要。
更好的 Agent 不只是回答得更快，而是在你开口之前就已经在正确的方向上做好了准备。
想亲眼看看主动式 Agent 的效果？
访问 ProAct Demo 页面：
https://agentace-ai.github.io/proact-showcase/
未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！
公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

		自动登录	找回密码
密码			立即注册