Recall Feedback
这是什么
Recall Feedback 是你对“这轮召回参考到底有没有帮上忙”的人工判断。
它不是在评价文笔好不好,而是在评价:
- 这轮带进来的参考是不是对
- 有没有把注意力带偏
- 有没有漏掉真正该跟上的内容
长期来看,它很适合帮你回答两个问题:
- 系统最近更常“漏掉关键内容”,还是“带了太多无关内容”
- 问题更集中在冲突、关系、伏笔、时间线,还是设定层面
它适合什么时候用
最适合在这些时候记录:
- 你刚看完一轮回复,直觉很明确:这轮参考是帮到了、带偏了,还是没给够
- 某条具体参考特别关键,或者特别碍事
- 你准备调整召回策略前,想先积累几轮更稳定的人工样本
如果你只是单纯不喜欢这段措辞、节奏或文风,不一定要记成 recall feedback。
Recall feedback 更聚焦在“参考内容本身对不对、够不够、偏不偏”。
最常见的三种反馈
1. 有用
适合这些情况:
- 带进来的参考确实帮系统接住了当前剧情
- 角色关系、主冲突、时间线被稳稳接上了
- 某条旧线索或背景事实恰好在这一轮起到了支撑作用
简单说,就是“这次带得对,而且刚好有用”。
2. 干扰
适合这些情况:
- 带进来的内容虽然是真的,但不是当前戏眼
- 已经解决的旧线索还在反复冒出来
- 旧背景太重,抢走了眼前场景的焦点
- 让模型往错误方向展开了
简单说,就是“带进来了,但带偏了”。
3. 缺失
适合这些情况:
- 当前最该承接的内容没被带进来
- 缺了关键事实、关键关系变化、关键时间锚点
- 回复因此显得发虚、接不住、像没看见重点
简单说,就是“真正该来的没来”。
可以记录哪两类反馈
1. 记录本轮反馈
这是对“整轮参考效果”的整体判断。
适合回答:
- 这轮整体上是有帮助,还是跑题了?
- 这轮整体信息够不够?
- 这一轮更大的问题到底是什么?
如果你只想快速留个判断,通常记这一类就够了。
2. 记录单条参考反馈
这是对某一条具体参考的判断。
适合回答:
- 这条场景参考很关键,确实帮到了
- 这条长期记忆其实已经过时了,还在抢戏
- 这条开放线索被带进来后,反而把注意力拉偏了
如果你已经能明确指出“问题更像是哪一条参考造成的”,这类反馈会更细。
怎么记录会更有用
记录一条 recall feedback 时,最值得写的是下面几项:
1. 先选信号
先判断这次更像:
- 有用
- 干扰
- 缺失
先把大方向选对,后面的标签才有意义。
2. 再补“为什么”
系统里常见的原因标签,通常包括:
- 主冲突
- 关系变化
- 未收束线头
- 时间锚点
- 连续性约束
- 焦点偏移
- 上下文陈旧
- 已解决线头
- 缺失核心事实
你不需要每次都选很多,1 到 2 个最贴切的就够了。
3. 再补“影响到了哪一类创作维度”
比如:
- 冲突
- 关系
- 悬念
- 设定
- 时间线
- 动机
- 连续性
- 伏笔
这一步的作用,是帮你后面做趋势判断:问题到底集中在哪一类写作需求上。
4. 如果是“缺失”,尽量写清楚缺了什么
这里最有价值的,不是写长文,而是写短而具体的话。
比如:
- 缺了“昨晚钟楼争执后两人还在冷战”这个承接
- 缺了“钥匙已经被调包”这个核心事实
- 缺了“第三天清晨”这个时间锚点
越具体,后面复盘越容易。
5. 备注保持短、准、像人话
不需要写成报告。
一句话说清楚就很好,比如:
- 这条旧设定是真的,但这一幕根本不该抢主冲突
- 这轮没有把两人的关系余波带进来,所以反应显得太平
怎么看“召回报表”和摘要
记录几轮之后,你可以去看当前会话的 召回报表,或者在 Prompt Debug 里看近期人工反馈摘要。
最值得看的通常有四类:
图:召回报表 会汇总当前会话里的有用、干扰、缺失,以及近期建议动作和反馈趋势。
1. 当前 chat vs 整个项目
- 当前 chat:更适合看这条线最近是不是有局部问题
- 整个项目:更适合看是不是长期都在同一个地方反复出错
如果当前 chat 很明显偏“缺失”,但全项目并没有,那更像是这条线最近的局部问题。
如果整个项目都长期偏“干扰”,那说明召回风格本身可能偏宽了。
2. 信号分布
先看最近到底哪一类最多:
- 有用多:说明整体方向基本对
- 干扰多:说明常常带偏
- 缺失多:说明常常没把真正重要的东西带进来
3. 高频原因标签
如果反复看到:
- 主冲突
- 关系变化
- 时间锚点
- 连续性约束
这些标签,就说明问题不是偶然,而是在同一类地方反复出现。
4. 最近例子和创作者备注
这部分最适合拿来做“人话复盘”。
因为它能告诉你:
- 最近到底是哪几轮最典型
- 当时创作者真正不满意的点是什么
- 问题更像“没带对”,还是“带得太多”
怎么把反馈变成后续动作
你不一定要每记一条就立刻调设置,更稳妥的做法是先看趋势。
如果最近反复是“缺失”
更像该优先检查:
- 当前场景承接是不是太弱
- 长期背景事实和旧线索是不是没跟上
- 当前轮次到底漏的是“眼前场景”,还是“长线信息”
如果最近反复是“干扰”
更像该优先检查:
- 旧内容是不是带得太多
- 已解决线头是不是还在反复进入参考
- 当前场景焦点是不是被背景信息抢走了
如果“有用”逐渐变多
通常说明:
- 召回方向在变稳
- 你记录 feedback 的方式也更一致了
- 后面再做策略调整时,会更容易判断有没有真的改善
使用时要注意
1. 评价的是“参考效果”,不是整段文学质量
如果这段写得平,但参考其实带得很准,不一定应该记成负面反馈。
Recall feedback 更关注:
- 带没带对
- 带没带够
- 有没有把注意力带偏
2. 短而具体,比长篇解释更有用
最有效的反馈通常不是大段分析,而是:
- 一个明确的信号
- 一两个原因标签
- 一句具体备注
3. 连续记几轮,比单次情绪判断更可靠
单次很容易受这轮剧情难度、你的临场预期、甚至当天状态影响。
连续看几轮,更容易看出稳定模式。
一句话总结
Recall Feedback 的价值,不在于“每轮都写很多”,而在于持续告诉系统:哪些参考真的帮到了你,哪些在抢戏,哪些关键内容又总是缺席。