Recall Feedback

这是什么

Recall Feedback 是你对“这轮召回参考到底有没有帮上忙”的人工判断。

它不是在评价文笔好不好,而是在评价:

  • 这轮带进来的参考是不是对
  • 有没有把注意力带偏
  • 有没有漏掉真正该跟上的内容

长期来看,它很适合帮你回答两个问题:

  • 系统最近更常“漏掉关键内容”,还是“带了太多无关内容”
  • 问题更集中在冲突、关系、伏笔、时间线,还是设定层面

它适合什么时候用

最适合在这些时候记录:

  • 你刚看完一轮回复,直觉很明确:这轮参考是帮到了、带偏了,还是没给够
  • 某条具体参考特别关键,或者特别碍事
  • 你准备调整召回策略前,想先积累几轮更稳定的人工样本

如果你只是单纯不喜欢这段措辞、节奏或文风,不一定要记成 recall feedback。
Recall feedback 更聚焦在“参考内容本身对不对、够不够、偏不偏”。


最常见的三种反馈

1. 有用

适合这些情况:

  • 带进来的参考确实帮系统接住了当前剧情
  • 角色关系、主冲突、时间线被稳稳接上了
  • 某条旧线索或背景事实恰好在这一轮起到了支撑作用

简单说,就是“这次带得对,而且刚好有用”。

2. 干扰

适合这些情况:

  • 带进来的内容虽然是真的,但不是当前戏眼
  • 已经解决的旧线索还在反复冒出来
  • 旧背景太重,抢走了眼前场景的焦点
  • 让模型往错误方向展开了

简单说,就是“带进来了,但带偏了”。

3. 缺失

适合这些情况:

  • 当前最该承接的内容没被带进来
  • 缺了关键事实、关键关系变化、关键时间锚点
  • 回复因此显得发虚、接不住、像没看见重点

简单说,就是“真正该来的没来”。


可以记录哪两类反馈

1. 记录本轮反馈

这是对“整轮参考效果”的整体判断。

适合回答:

  • 这轮整体上是有帮助,还是跑题了?
  • 这轮整体信息够不够?
  • 这一轮更大的问题到底是什么?

如果你只想快速留个判断,通常记这一类就够了。

2. 记录单条参考反馈

这是对某一条具体参考的判断。

适合回答:

  • 这条场景参考很关键,确实帮到了
  • 这条长期记忆其实已经过时了,还在抢戏
  • 这条开放线索被带进来后,反而把注意力拉偏了

如果你已经能明确指出“问题更像是哪一条参考造成的”,这类反馈会更细。


怎么记录会更有用

记录一条 recall feedback 时,最值得写的是下面几项:

1. 先选信号

先判断这次更像:

  • 有用
  • 干扰
  • 缺失

先把大方向选对,后面的标签才有意义。

2. 再补“为什么”

系统里常见的原因标签,通常包括:

  • 主冲突
  • 关系变化
  • 未收束线头
  • 时间锚点
  • 连续性约束
  • 焦点偏移
  • 上下文陈旧
  • 已解决线头
  • 缺失核心事实

你不需要每次都选很多,1 到 2 个最贴切的就够了。

3. 再补“影响到了哪一类创作维度”

比如:

  • 冲突
  • 关系
  • 悬念
  • 设定
  • 时间线
  • 动机
  • 连续性
  • 伏笔

这一步的作用,是帮你后面做趋势判断:问题到底集中在哪一类写作需求上。

4. 如果是“缺失”,尽量写清楚缺了什么

这里最有价值的,不是写长文,而是写短而具体的话。

比如:

  • 缺了“昨晚钟楼争执后两人还在冷战”这个承接
  • 缺了“钥匙已经被调包”这个核心事实
  • 缺了“第三天清晨”这个时间锚点

越具体,后面复盘越容易。

5. 备注保持短、准、像人话

不需要写成报告。

一句话说清楚就很好,比如:

  • 这条旧设定是真的,但这一幕根本不该抢主冲突
  • 这轮没有把两人的关系余波带进来,所以反应显得太平

怎么看“召回报表”和摘要

记录几轮之后,你可以去看当前会话的 召回报表,或者在 Prompt Debug 里看近期人工反馈摘要。

最值得看的通常有四类:

当前会话召回反馈报表 图:召回报表 会汇总当前会话里的有用、干扰、缺失,以及近期建议动作和反馈趋势。

1. 当前 chat vs 整个项目

  • 当前 chat:更适合看这条线最近是不是有局部问题
  • 整个项目:更适合看是不是长期都在同一个地方反复出错

如果当前 chat 很明显偏“缺失”,但全项目并没有,那更像是这条线最近的局部问题。
如果整个项目都长期偏“干扰”,那说明召回风格本身可能偏宽了。

2. 信号分布

先看最近到底哪一类最多:

  • 有用多:说明整体方向基本对
  • 干扰多:说明常常带偏
  • 缺失多:说明常常没把真正重要的东西带进来

3. 高频原因标签

如果反复看到:

  • 主冲突
  • 关系变化
  • 时间锚点
  • 连续性约束

这些标签,就说明问题不是偶然,而是在同一类地方反复出现。

4. 最近例子和创作者备注

这部分最适合拿来做“人话复盘”。

因为它能告诉你:

  • 最近到底是哪几轮最典型
  • 当时创作者真正不满意的点是什么
  • 问题更像“没带对”,还是“带得太多”

怎么把反馈变成后续动作

你不一定要每记一条就立刻调设置,更稳妥的做法是先看趋势。

如果最近反复是“缺失”

更像该优先检查:

  • 当前场景承接是不是太弱
  • 长期背景事实和旧线索是不是没跟上
  • 当前轮次到底漏的是“眼前场景”,还是“长线信息”

如果最近反复是“干扰”

更像该优先检查:

  • 旧内容是不是带得太多
  • 已解决线头是不是还在反复进入参考
  • 当前场景焦点是不是被背景信息抢走了

如果“有用”逐渐变多

通常说明:

  • 召回方向在变稳
  • 你记录 feedback 的方式也更一致了
  • 后面再做策略调整时,会更容易判断有没有真的改善

使用时要注意

1. 评价的是“参考效果”,不是整段文学质量

如果这段写得平,但参考其实带得很准,不一定应该记成负面反馈。

Recall feedback 更关注:

  • 带没带对
  • 带没带够
  • 有没有把注意力带偏

2. 短而具体,比长篇解释更有用

最有效的反馈通常不是大段分析,而是:

  • 一个明确的信号
  • 一两个原因标签
  • 一句具体备注

3. 连续记几轮,比单次情绪判断更可靠

单次很容易受这轮剧情难度、你的临场预期、甚至当天状态影响。
连续看几轮,更容易看出稳定模式。


一句话总结

Recall Feedback 的价值,不在于“每轮都写很多”,而在于持续告诉系统:哪些参考真的帮到了你,哪些在抢戏,哪些关键内容又总是缺席。