Prompt Debug

这是什么

Prompt Debug 用来帮你看清:

  • 这一轮到底给模型送了什么
  • 哪些参考真的带进去了
  • 哪些内容因为预算、裁剪或策略没有带进去
  • 为什么这次输出看起来“跑偏”“失忆”或“重点不对”

你可以把它理解成“最近一轮生成的 prompt 快照”。

它不是给模型做解释学,而是帮你排查:问题更像出在“没带进去”、还是“带进去了但模型没抓住重点”。


什么时候打开它

下面这些情况,很适合先看 Prompt Debug:

  • 明明刚写过,下一轮却像没接上
  • 某条旧设定、旧线索反复冒出来,抢走当前重点
  • 你以为系统会带某条场景记忆、长期记忆,结果没有
  • 你怀疑 prompt 太满,有些内容被裁掉了
  • 你想确认“我看到的聊天内容”和“真实送模内容”是不是一样

如果你只是单纯觉得这段文风不喜欢、节奏不满意,Prompt Debug 不一定能直接告诉你答案;它更适合查“上下文和参考是怎么被拼进去的”。


怎么打开

先在 Generation 设置里把 Prompt Debug 打开。

打开后,写作 chat 每次生成都会保留最近一次 prompt 快照。此时你在 chat 里发送消息,生成完成后,如果当前页面出现 Prompt 按钮,就可以点开最近一次 Prompt Debug。

建议搭配“刚生成完就看”:

  • 信息最完整
  • 更容易对照这次回复为什么这样写
  • 也更容易回想自己上一轮到底想让系统承接什么

Prompt Debug 开关位于生成设置中 图:先在 Generation 设置里打开 Prompt Debug,后续生成才会保留最近一次 prompt 快照。

上图里可以直接看到:Prompt Debug 需要先在 Generation 设置中开启,后面的 chat 才会保留最近一次 prompt 快照。


主要看什么

Prompt Debug 里最常用的是三个标签:

1. 预算与裁剪

这一页主要回答:

  • 本轮 prompt 有多满
  • 有没有发生压缩、回退或裁剪
  • 哪些来源项生效了,哪些没生效

你可以重点看这几类信息:

  • Prompt Tokens / Prompt Budget:这轮是否已经接近上限
  • History Reserve:系统给历史消息预留了多少空间
  • Dropped Blocks / Summarized Blocks:有没有内容被直接丢弃,或被压缩成摘要
  • Prompt 来源:这轮内容来自哪里,比如系统指令、项目上下文、写作参考等
  • Block 裁剪决策:哪些 block 被保留,哪些被跳过,以及大致原因

适合这样理解:

  • 如果预算很紧,说明“没带进去”不一定是 bug,也可能只是空间不够
  • 如果某类来源一直没生效,说明问题更可能在策略或条件,而不是模型临场发挥
  • 如果发生了回退或压缩,后面回复更可能偏向“保留主干、牺牲细节”

Prompt Debug 的预算与裁剪页 图:预算与裁剪 页会展示 prompt 预算、来源项,以及 block 的裁剪决策。

2. 写作参考

这一页主要回答:

  • 本轮到底参考了哪些场景信息和长期记忆
  • 哪些候选被选中了,哪些没有
  • 没带入的原因更像是什么

这一页通常最适合排查“为什么这次写偏了”。

你可以重点看:

  • 场景参考:更偏当前场戏的承接
  • 长期记忆参考:更偏旧线索、背景事实、关系、设定
  • 未引用原因:为什么这一类参考这轮没有参与
  • 结果说明:最后是完全没带、带了一部分,还是被预算裁掉
  • 候选项:有哪些内容其实差一点就进来了

如果你看到:

  • 候选很多,但实际带入很少:更像是预算不够,或者筛选后只留了最贴近的一小部分
  • 候选本身就不对:更像是召回方向出了问题
  • 完全没有候选:更像是当前轮次、项目上下文或触发条件不满足

这一页里通常还会看到两类补充信息:

  • 近期人工 recall 反馈:帮助你判断最近大家最常抱怨的是“没带关键内容”,还是“带了太多无关内容”
  • 线索变化:帮助你看这轮是在继续铺线,还是在回收旧线索

Prompt Debug 的写作参考页 图:写作参考 页会展示场景参考、长期记忆参考,以及候选被带入或被裁掉的原因。

3. 真实送模消息

这一页最直接,回答的是:

  • 最终真正发给模型的消息长什么样

适合在这些时候看:

  • 你怀疑某句话只显示在界面里,但其实没送进去
  • 你想确认某段项目说明、设定、参考文本是不是原样参与了本轮
  • 你觉得系统理解错了,想先确认输入到底是什么

如果这里没有你以为会出现的内容,优先回去看“预算与裁剪”或“写作参考”。

在“写作参考”页往下看,还能直接看到近期人工 recall 反馈摘要。它适合用来辅助判断:最近的问题更像是“没带进来”,还是“带进来了但带偏了”。

Prompt Debug 中的近期人工 recall 反馈摘要 图:在 写作参考 页下方,还可以看到近期人工 recall 反馈摘要,帮助判断最近更像是缺失还是干扰。


常见排查场景

1. 像是“失忆”了,接不上最近剧情

先看:

  • 写作参考里的场景参考
  • 预算与裁剪里的历史压缩和裁剪情况

如果最近场景没有带进去,问题更可能是承接参考没进来;
如果带进去了但回复还是没接住,问题更可能在模型理解或本轮写法。

2. 老剧情、旧设定总在抢戏

先看:

  • 写作参考里的长期记忆参考
  • 近期人工 recall 反馈

如果你反复看到一些旧条目被带入,而且人工反馈也经常标成“干扰”,那说明当前召回范围可能偏宽了,或者焦点没有收紧。

3. 某条关键设定明明很重要,却没有出现

先看:

  • 预算与裁剪里的 Prompt 来源
  • 写作参考里的未引用原因和候选项

如果它根本没进入候选,说明问题更偏“没被想到”;
如果进入候选但被裁掉,说明问题更偏“预算太紧”。

4. 想确认系统为什么会给出这个回答

先看:

  • 真实送模消息
  • 写作参考

这通常能帮你判断:

  • 这次回答是被哪些上下文推着走的
  • 是因为某条参考太强,还是因为某条关键信息压根没进去

使用时要注意

1. 它只说明“送了什么”,不保证模型一定会怎么用

某条内容进入了 prompt,不等于模型一定会抓住它; 某条内容没被重点使用,也不一定代表召回错了。

Prompt Debug 更适合判断“输入层面发生了什么”,不是直接给出创作层面的唯一结论。

2. 它看的是“最近一次”

如果你在对照几轮走势,最好连续看几次,而不是只看单轮截图就下结论。

单轮很容易偶然:

  • 某次正好预算特别紧
  • 某次正好在切场
  • 某次正好用了特殊提示或临时约束

3. 不要把分数当成绝对真理

候选分高,不代表它对这段创作一定最有用; 候选分低,也不代表它在文学上完全不重要。

这些信息更适合拿来做“排查线索”,而不是直接替你做创作判断。


一句话总结

当你想知道“这轮到底为什么会这么写”时,先看 Prompt Debug;它最擅长帮你分清问题更像出在“没带进去”,还是“带进去了但没用好”。