LLM-as-a-Courtroom

Jan 27, 2026     Author:jmtulloss     HN Points:69     HN Comments:7
Share this

摘要: Falconer 通过构建一个名为“LLM-as-a-Courtroom”的评估系统,利用大型语言模型(LLM)的能力来自动化文档更新。该系统模仿法庭审判流程,包括检察官、辩护律师、陪审团和法官的角色,对代码变更对文档的影响进行评估。检察官负责构建证据和案例,辩护律师提出反驳,陪审团进行独立评估,法官做出最终裁决。这种方法有效地解决了文档更新中的“知识腐朽”问题,提高了文档的准确性和时效性。

讨论: 上述内容主要讨论了使用大型语言模型(LLM)进行复杂决策和推理的优缺点。pu_pe 提出了对于复杂编排的简化替代方案,并质疑了83%的人类审查准确率的合理性。aryamanagraw 讨论了LLM在评分上的不一致性,并提出了使用法庭结构来增强LLM推理的建议。test6554通过一个法庭对话的场景来讽刺LLM可能存在的缺陷。jpollock提出了使用LLM的成本效益问题,并探讨了是否可以通过预测模型来减少对LLM的依赖。unixhero提出了对ChatGPT等工具可能解决类似问题的疑问。nader24关注了该架构的成本和延迟问题,认为与标准RAG检查相比,每个PR都需要运行多个角色可能过于昂贵。emsign则认为LLM无法理解“用户伤害”,因此这种方法不可行。

原文标题:LLM-as-a-Courtroom
原文链接:https://falconer.com/notes/llm-as-a-courtroom/
讨论链接:https://news.ycombinator.com/item?id=46784210