迈向自主数学研究

Feb 15, 2026     Author:gmays     HN Points:103     HN Comments:12
Share this

摘要: 本文介绍了 Aletheia,一个数学研究代理,它能够迭代地生成、验证和修订自然语言中的解决方案。Aletheia 使用先进的 Gemini Deep Think 解决复杂推理问题,并使用新颖的推理时间缩放法则扩展到奥林匹克水平以上的问题。文章展示了 Aletheia 在奥林匹克问题到博士水平练习中的应用,并通过三个里程碑展示了人工智能辅助数学研究的能力:(a) 生成了一篇关于算术几何中特征权重结构常数的论文;(b) 与人类合作证明了相互作用粒子系统(独立集)的界限;(c) 对 Bloom 的 Erdos Conjectures 数据库中的 700 个开放问题进行了广泛的半自主评估,包括对四个开放问题的自主解决方案。为了帮助公众更好地理解人工智能与数学的发展,建议量化人工智能辅助结果的自主性和新颖性,并提出了人类-人工智能交互卡的概念。最后,文章反思了人类-人工智能在数学中的合作,并分享了所有提示和模型输出。

讨论: 该内容主要讨论了应用数学在各个领域的研究现状和挑战。dash2指出,许多应用数学的理论部分在数学水平上非常简单,甚至可以用本科水平来描述。他通过ChatGPT验证了一个论文附录的结果,并认为其表述更为优雅。umairnadeem123提出了关于成功案例和失败案例的分布的问题,询问是搜索、形式化还是证明检查方面的问题最多。amiune分享了一个与测试相关的论文链接。paulpauper对在arXiv列表的摘要中放置活URL表示惊讶。measurablefunc则对机器在某些基准测试中达到96%准确率而认为它是超级天才的观点表示质疑,认为人类即使在某些高级数学基准测试中达到90%的准确率仍然会错过最后的10%。

原文标题:Towards Autonomous Mathematics Research
原文链接:https://arxiv.org/abs/2602.10177
讨论链接:https://news.ycombinator.com/item?id=47026134