摘要: 本文介绍了FDM-1,一个用于计算机使用的基座模型。FDM-1在11百万小时屏幕录制数据集的一部分视频上进行训练,并使用训练的逆动力学模型进行标注。该模型能够将2小时的30 FPS视频压缩到1M个token中。FDM-1是第一个具有长上下文训练能力的模型,可以成为CAD、金融、工程和最终机器学习研究的合作伙伴,并且随着规模的扩大而持续改进。它可以直接在视频上训练和推理,而不是截图,并且可以从整个互联网中无监督地学习。文章还介绍了FDM-1在CAD、驾驶汽车和模糊测试网站等方面的应用演示。
讨论: 该讨论主要围绕一个新型的计算机使用模型展开,该模型通过分析11百万小时的计算机视频数据进行了训练。模型能够以30 FPS的速度运行,并能执行CAD设计、浏览网页和通过箭头键驾驶汽车等任务。讨论中提到了模型训练的细节,包括逆动力学和正向动力学模型的训练方式、数据分布、以及如何处理鼠标输入等。同时,讨论中也涉及了模型在不同UI环境中的泛化能力、音频输出处理以及自动驾驶所需的微调数据等问题。
原文标题:The First Fully General Computer Action Model
原文链接:https://si.inc/posts/fdm1/
讨论链接:https://news.ycombinator.com/item?id=47125014