Recall Feedback

这是什么

Recall Feedback 是你对“这轮召回参考到底有没有帮上忙”的人工判断。

它不是在评价文笔好不好，而是在评价：

这轮带进来的参考是不是对
有没有把注意力带偏
有没有漏掉真正该跟上的内容

长期来看，它很适合帮你回答两个问题：

系统最近更常“漏掉关键内容”，还是“带了太多无关内容”
问题更集中在冲突、关系、伏笔、时间线，还是设定层面

它适合什么时候用

最适合在这些时候记录：

你刚看完一轮回复，直觉很明确：这轮参考是帮到了、带偏了，还是没给够
某条具体参考特别关键，或者特别碍事
你准备调整召回策略前，想先积累几轮更稳定的人工样本

如果你只是单纯不喜欢这段措辞、节奏或文风，不一定要记成 recall feedback。
Recall feedback 更聚焦在“参考内容本身对不对、够不够、偏不偏”。

最常见的三种反馈

1. 有用

适合这些情况：

带进来的参考确实帮系统接住了当前剧情
角色关系、主冲突、时间线被稳稳接上了
某条旧线索或背景事实恰好在这一轮起到了支撑作用

简单说，就是“这次带得对，而且刚好有用”。

2. 干扰

适合这些情况：

带进来的内容虽然是真的，但不是当前戏眼
已经解决的旧线索还在反复冒出来
旧背景太重，抢走了眼前场景的焦点
让模型往错误方向展开了

简单说，就是“带进来了，但带偏了”。

3. 缺失

适合这些情况：

当前最该承接的内容没被带进来
缺了关键事实、关键关系变化、关键时间锚点
回复因此显得发虚、接不住、像没看见重点

简单说，就是“真正该来的没来”。

可以记录哪两类反馈

1. 记录本轮反馈

这是对“整轮参考效果”的整体判断。

适合回答：

这轮整体上是有帮助，还是跑题了？
这轮整体信息够不够？
这一轮更大的问题到底是什么？

如果你只想快速留个判断，通常记这一类就够了。

2. 记录单条参考反馈

这是对某一条具体参考的判断。

适合回答：

这条场景参考很关键，确实帮到了
这条长期记忆其实已经过时了，还在抢戏
这条开放线索被带进来后，反而把注意力拉偏了

如果你已经能明确指出“问题更像是哪一条参考造成的”，这类反馈会更细。

怎么记录会更有用

记录一条 recall feedback 时，最值得写的是下面几项：

1. 先选信号

先判断这次更像：

有用
干扰
缺失

先把大方向选对，后面的标签才有意义。

2. 再补“为什么”

系统里常见的原因标签，通常包括：

主冲突
关系变化
未收束线头
时间锚点
连续性约束
焦点偏移
上下文陈旧
已解决线头
缺失核心事实

你不需要每次都选很多，1 到 2 个最贴切的就够了。

3. 再补“影响到了哪一类创作维度”

比如：

冲突
关系
悬念
设定
时间线
动机
连续性
伏笔

这一步的作用，是帮你后面做趋势判断：问题到底集中在哪一类写作需求上。

4. 如果是“缺失”，尽量写清楚缺了什么

这里最有价值的，不是写长文，而是写短而具体的话。

比如：

缺了“昨晚钟楼争执后两人还在冷战”这个承接
缺了“钥匙已经被调包”这个核心事实
缺了“第三天清晨”这个时间锚点

越具体，后面复盘越容易。

5. 备注保持短、准、像人话

不需要写成报告。

一句话说清楚就很好，比如：

这条旧设定是真的，但这一幕根本不该抢主冲突
这轮没有把两人的关系余波带进来，所以反应显得太平

怎么看“召回报表”和摘要

记录几轮之后，你可以去看当前会话的 召回报表，或者在 Prompt Debug 里看近期人工反馈摘要。

最值得看的通常有四类：

当前会话召回反馈报表 图：召回报表 会汇总当前会话里的有用、干扰、缺失，以及近期建议动作和反馈趋势。

1. 当前 chat vs 整个项目

当前 chat：更适合看这条线最近是不是有局部问题
整个项目：更适合看是不是长期都在同一个地方反复出错

如果当前 chat 很明显偏“缺失”，但全项目并没有，那更像是这条线最近的局部问题。
如果整个项目都长期偏“干扰”，那说明召回风格本身可能偏宽了。

2. 信号分布

先看最近到底哪一类最多：

有用多：说明整体方向基本对
干扰多：说明常常带偏
缺失多：说明常常没把真正重要的东西带进来

3. 高频原因标签

如果反复看到：

主冲突
关系变化
时间锚点
连续性约束

这些标签，就说明问题不是偶然，而是在同一类地方反复出现。

4. 最近例子和创作者备注

这部分最适合拿来做“人话复盘”。

因为它能告诉你：

最近到底是哪几轮最典型
当时创作者真正不满意的点是什么
问题更像“没带对”，还是“带得太多”

怎么把反馈变成后续动作

你不一定要每记一条就立刻调设置，更稳妥的做法是先看趋势。

如果最近反复是“缺失”

更像该优先检查：

当前场景承接是不是太弱
长期背景事实和旧线索是不是没跟上
当前轮次到底漏的是“眼前场景”，还是“长线信息”

如果最近反复是“干扰”

更像该优先检查：

旧内容是不是带得太多
已解决线头是不是还在反复进入参考
当前场景焦点是不是被背景信息抢走了

如果“有用”逐渐变多

通常说明：

召回方向在变稳
你记录 feedback 的方式也更一致了
后面再做策略调整时，会更容易判断有没有真的改善

使用时要注意

1. 评价的是“参考效果”，不是整段文学质量

如果这段写得平，但参考其实带得很准，不一定应该记成负面反馈。

Recall feedback 更关注：

带没带对
带没带够
有没有把注意力带偏

2. 短而具体，比长篇解释更有用

最有效的反馈通常不是大段分析，而是：

一个明确的信号
一两个原因标签
一句具体备注

3. 连续记几轮，比单次情绪判断更可靠

单次很容易受这轮剧情难度、你的临场预期、甚至当天状态影响。
连续看几轮，更容易看出稳定模式。

一句话总结

Recall Feedback 的价值，不在于“每轮都写很多”，而在于持续告诉系统：哪些参考真的帮到了你，哪些在抢戏，哪些关键内容又总是缺席。

Recall Feedback

On this page