Claude 每日基准测试用于退化跟踪

Jan 29, 2026     Author:qwesr123     HN Points:729     HN Comments:61
Share this

摘要: 该内容描述了一个95%置信区间的概念,其中每个数据点的置信区间可以通过勾选复选框来显示或隐藏。更宽的置信区间表示更大的不确定性(样本数量较少)。

讨论: 这段内容主要讨论了关于 Claude Code 模型的多个方面,包括模型更新、测试方法、性能波动、用户体验和模型透明度等问题。trq_ 表示 Claude Code 团队成员确认并修复了一个在 1 月 26 日引入的问题,并建议用户更新到最新版本。ofirpress 对测试方法的单一性和频率提出了质疑,建议增加测试任务数量和频率。antirez 认为准确率的变化可能是由多个因素引起的,包括测试方法、模型更新和服务器负载等。crazygringo 指出统计方法上的问题,并要求更详细的时间跨度和方法论说明。Dowwie 认为用户对模型的失望会导致敌意情绪的增加。silverlight 描述了 Claude 停机后恢复时的性能提升。dajonker 提到了模型量化的可能性。dmos62 对 LLM 提供商的透明度表示不满,特别是 ChatGPT 在处理大量输入时的表现问题。jampa 报告了使用 API 模式时 Claude 模型的不可预测行为,导致工作流程失败。foerster 也感觉 Claude 的能力最近有所下降。

原文标题:Claude Code daily benchmarks for degradation tracking
原文链接:https://marginlab.ai/trackers/claude-code/
讨论链接:https://news.ycombinator.com/item?id=46810282