LLM-as-a-Courtroom

摘要： Falconer 通过构建一个名为“LLM-as-a-Courtroom”的评估系统，利用大型语言模型（LLM）的能力来自动化文档更新。该系统模仿法庭审判流程，包括检察官、辩护律师、陪审团和法官的角色，对代码变更对文档的影响进行评估。检察官负责构建证据和案例，辩护律师提出反驳，陪审团进行独立评估，法官做出最终裁决。这种方法有效地解决了文档更新中的“知识腐朽”问题，提高了文档的准确性和时效性。

讨论： 上述内容主要讨论了使用大型语言模型（LLM）进行复杂决策和推理的优缺点。pu_pe 提出了对于复杂编排的简化替代方案，并质疑了83%的人类审查准确率的合理性。aryamanagraw 讨论了LLM在评分上的不一致性，并提出了使用法庭结构来增强LLM推理的建议。test6554通过一个法庭对话的场景来讽刺LLM可能存在的缺陷。jpollock提出了使用LLM的成本效益问题，并探讨了是否可以通过预测模型来减少对LLM的依赖。unixhero提出了对ChatGPT等工具可能解决类似问题的疑问。nader24关注了该架构的成本和延迟问题，认为与标准RAG检查相比，每个PR都需要运行多个角色可能过于昂贵。emsign则认为LLM无法理解“用户伤害”，因此这种方法不可行。

原文标题：LLM-as-a-Courtroom
原文链接：https://falconer.com/notes/llm-as-a-courtroom/
讨论链接：https://news.ycombinator.com/item?id=46784210