第一个完全通用的计算机动作模型

摘要： 本文介绍了FDM-1，一个用于计算机使用的基座模型。FDM-1在11百万小时屏幕录制数据集的一部分视频上进行训练，并使用训练的逆动力学模型进行标注。该模型能够将2小时的30 FPS视频压缩到1M个token中。FDM-1是第一个具有长上下文训练能力的模型，可以成为CAD、金融、工程和最终机器学习研究的合作伙伴，并且随着规模的扩大而持续改进。它可以直接在视频上训练和推理，而不是截图，并且可以从整个互联网中无监督地学习。文章还介绍了FDM-1在CAD、驾驶汽车和模糊测试网站等方面的应用演示。

讨论： 该讨论主要围绕一个新型的计算机使用模型展开，该模型通过分析11百万小时的计算机视频数据进行了训练。模型能够以30 FPS的速度运行，并能执行CAD设计、浏览网页和通过箭头键驾驶汽车等任务。讨论中提到了模型训练的细节，包括逆动力学和正向动力学模型的训练方式、数据分布、以及如何处理鼠标输入等。同时，讨论中也涉及了模型在不同UI环境中的泛化能力、音频输出处理以及自动驾驶所需的微调数据等问题。

原文标题：The First Fully General Computer Action Model
原文链接：https://si.inc/posts/fdm1/
讨论链接：https://news.ycombinator.com/item?id=47125014