First Dataset

Posted: **Sat Jan 25, 2025 6:41 am**

他们已经达到了一个阶段虽然不能说计算资源是丰富的但已经足够支撑模型的发展基本不再是一个限制。而在数据方面所有前沿实验室已经尽可能地挖掘了可用的数据资源。接下来就是在数据方面取得突破对吗？ W：是的基本上是这样。如果你看这三大支柱计算方面我们显然会继续扩大训练集群的规模这个方向是比较明确的。算法方面我认为将会有很多创新。事实上很多实验室现在都在这一领域进行深入的研究。而关于数据你提到的很对我们已经用尽了所有容易获取的公开数据。 v ：是的所有人都可以获得相同的数据。 W：没错很多人称之为“数据墙”我们已经利用了所有公开的数据资源。

每个实验室将如何生成所需的数据以实现更高的智荷兰电话数据能水平这将是一个关键问题我们如何朝着数据丰富迈进？这将需要多个领域的前沿研究。我认为首先是推动数据复杂性的提升迈向前沿数据。我们希望在模型中构建的许多能力其最大的障碍其实是数据的缺乏。比如说过去两年内一直是一个热门话题但实际上几乎没有能很好地运作。原因是网络上根本没有大量有价值的数据。这些数据不在那里所以我们需要生产高质量的数据。 v ：能举个例子说明我们需要生产什么样的数据吗？ W：我们即将发布的一项研究表明目前所有前沿模型在工具组合上的表现都很差。

比如它们需要先查找信息然后编写一个 h 脚本再绘制图表使用多个工具串联起来解决问题时模型表现得非常糟糕。而这对人类来说是非常自然的。 v ：是的但这些操作没有被记录下来是这个意思吗？也就是说模型无法学习到这些步骤。 W：完全正确。这些推理链条在人类解决复杂问题时非常常见我们会自然地使用一系列工具思考问题并推理下一步需要做什么。如果遇到错误我们会回过头重新考虑。很多这样的智能链条数据今天根本不存在。这是一个需要生成的数据例子。退一步讲首先需要在数据上取得的进展是增加数据的复杂性朝前沿数据迈进。其次是增加数据的生产量捕捉更多人类在实际工作中的行为。

First Dataset

而下一阶段的标志之一将是数据生产

而下一阶段的标志之一将是数据生产