问题定义
- 核心问题:在异常节点存在时,系统能否稳定产生一致且可执行计划。
目前的限制如下:
- 多 Agent 协作中,信息传递并不完美:语义转述、上下文截断、轮次限制会导致任务意图丢失。
- LLM 输出存在随机性,且可能出现无意误导或有意有害步骤,这在共识层面等价于拜占庭故障。
- 本实验目标是验证:确定性协议能否约束不确定推理并提升系统鲁棒性。
实验设计与架构对照
- 统一三层:Planning 负责任务拆分与候选计划提议;Worker 负责步骤执行方案生成;Verification 负责一致性审查、风险识别与回退触发。
五种架构
- 架构 A SingleAgentPipeline:单体流水线,规划/执行/验证集中于同一 Agent,优点是链路短,风险是自证偏见难纠正。
- 架构 B NaiveAOP:中心化主控,由 Meta Planner 统一调度 Worker,优点是分工清晰,风险是单点拜占庭失效。
- 架构 C WorkerVerifierPipeline:在中心化规划后加入验证回退,若计划被多数验证器拒绝则切换到替代方案,重点检验“验证层”纠偏能力。
- 架构 D ConsensusOnlyPipeline:纯步骤共识,直接在原子步骤层提取最大公约数,重点检验去中心化一致性能力。
- 架构 E RobustBOP:异构 Planner + Byzantine Aggregator,先用几何中位数选出更稳妥方案,再对每一步做逐步共识,重点检验鲁棒聚合对抗噪声的效果。
实验控制与故障注入
- 变量控制:任务池、随机种子、评分函数保持一致,只改变架构与 byzantine_ratio,确保比较公平。
- 故障注入细化:hallucination(生成与任务弱相关步骤)、adversarial(高风险/冲突步骤)、omission(关键步骤缺失)、misleading(表面合理但方向偏移)。