a16z对谈:AI领域三大支柱企业深度分析,英伟达、OpenAI和Scale AI震撼揭秘

更新时间:2024-09-27 15:21:19作者:ruihaifu

在人工智能(AI)领域,几家关键企业正在推动技术的发展和创新。最近,Scale AI的创始人兼首席执行官Alexandr Wang与a16z的合伙人David George进行了一场深入的对话,探讨了AI领域的最新进展和未来趋势。在这次讨论中,他们分析了Nvidia、OpenAI和Scale AI等行业巨头如何成为AI进步的三大支柱,并预测了AI技术的未来走向。

a16z对谈:AI领域三大支柱企业深度分析,英伟达、OpenAI和Scale AI震撼揭秘

近日,Scale AI 创始人&CEO Alexandr Wang 与 a16z 合伙人 David George 展开了深入对话。

Alexandr Wang 表示,AI 的进展依赖于计算能力、算法创新和数据资源,而 Scale AI 专注于推动前沿数据的生成,支持 AI 在前沿技术中的进步。

与去年同期相比,Scale 今年上半年销售额几乎增长了三倍,达到近 4 亿美元,为大型客机公司标记数据已经成为一项巨大的业务,预计今年收入将达到近 10 亿美元。

现有的公开数据资源已被充分利用,未来 AI 发展的核心在于如何生成新的高复杂度、前沿数据,并在此基础上推动更高水平的智能进步。

他强调,在公司快速扩张过程中,招聘大量新员工反而可能降低组织的整体绩效。关键在于保持小规模、高效的团队,并确保外部高管能深入理解公司的运作节奏后,再逐步引导变革。

此外,他还将 AGI 定义为能够完成 80% 以上人类可通过计算机完成的数字化工作,虽然这一目标并非短期内可实现,但随着算法创新,未来 4 年内或许能看到早期迹象。

以下为这次对话的主要内容,enjoy~

David George:

我总是很喜欢和你聊天,每次都能学到很多。我们可以先聊聊你在 Scale AI 正在构建的东西,然后深入探讨。

Alexandr Wang:

好的,在 Scale ,我们正在为 AI 构建数据铸造厂。从大的层面来看, AI 归结为三大支柱:计算、数据和算法。

我们所看到的所有进展都来自这三个方面:计算由像 Nvidia 这样的公司推动,算法的进步由像 OpenAI 这样的大型实验室引领,而数据则由 Scale 提供。

我们的目标是生产前沿数据,以推动与各大实验室合作的前沿水平进步,并使每个企业和政府能够利用他们的专有数据来推动自己的前沿 AI 发展。

David George:

关于前沿数据这个话题,实际上你是如何获得这些数据的呢?

Alexandr Wang:

是的,我认为这是我们这个时代的伟大人类项目之一。如果这有意义的话,我认为目前唯一的智慧模型就是人类,而前沿数据的生产很像是人类专家与技术和算法技术的结合,以生产大量此类数据。顺便说一句,迄今为止我们所产生的所有数据,互联网也是类似的。

在很多方面,互联网是机器和人类合作产生大量内容和数据的成果。而未来的情况可能就像增强版的互联网:如果互联网不仅仅是一个人类娱乐设备,而是一个大规模的数据生成实验,会怎样呢?

David George:

你对行业现状有独特的见解,你如何描述当前语言模型的状态呢?我很想谈谈市场结构,但可以先从你对行业的整体看法开始。

Alexandr Wang:

是的,我认为我们可能正接近语言模型开发的第二阶段末期。第一阶段是早期几乎完全的研究阶段,标志性的成果包括最初的 Transformer 论文和对 GPT 的早期小规模实验,直到 GPT-3 发布为止。

这是一个专注于小规模实验和算法进步的阶段。然后,第二阶段大致从 GPT-3 开始到现在,进入了初始扩展阶段。

GPT-3 表现得相当不错,接着 OpenAI 及其他公司开始大规模扩展这些模型,像Google、Anthropic、 Meta 和 xAI 等许多公司也加入了这个竞赛,将模型的能力提升到极限。

过去两三年间,几乎完全是执行层面的工作,涉及如何使大规模训练顺利进行,如何避免代码中的怪异错误,如何设置更大的集群等。

接下来我认为我们将进入一个研究和执行之间更多交替的阶段,各实验室将朝着不同的研究方向发展,并在不同时期取得各自的突破,因此这是一个激动人心的转折期。

David George:

他们已经达到了一个阶段,虽然不能说计算资源是丰富的,但已经足够支撑模型的发展,基本不再是一个限制。而在数据方面,所有前沿实验室已经尽可能地挖掘了可用的数据资源。接下来就是在数据方面取得突破,对吗?

Alexandr Wang:

是的,基本上是这样。如果你看这三大支柱,计算方面我们显然会继续扩大训练集群的规模,这个方向是比较明确的。算法方面,我认为将会有很多创新。

事实上,很多实验室现在都在这一领域进行深入的研究。而关于数据,你提到的很对,我们已经用尽了所有容易获取的公开数据。

David George:

是的,所有人都可以获得相同的数据。

Alexandr Wang:

没错,很多人称之为“数据墙”,我们已经利用了所有公开的数据资源。而下一阶段的标志之一将是数据生产。

每个实验室将如何生成所需的数据以实现更高的智能水平,这将是一个关键问题,我们如何朝着数据丰富迈进?这将需要多个领域的前沿研究。

我认为,首先是推动数据复杂性的提升,迈向前沿数据。我们希望在模型中构建的许多能力,其最大的障碍其实是数据的缺乏。

比如说,过去两年内, Agent 一直是一个热门话题,但实际上几乎没有 Agent 能很好地运作。原因是网络上根本没有大量有价值的 Agent 数据。这些数据不在那里,所以我们需要生产高质量的 Agent 数据。

David George:

能举个例子,说明我们需要生产什么样的数据吗?

Alexandr Wang:

我们即将发布的一项研究表明,目前所有前沿模型在工具组合上的表现都很差。比如它们需要先查找信息,然后编写一个 Python 脚本,再绘制图表,使用多个工具串联起来解决问题时,模型表现得非常糟糕。而这对人类来说是非常自然的。

David George:

是的,但这些操作没有被记录下来,是这个意思吗?也就是说,模型无法学习到这些步骤。

Alexandr Wang:

完全正确。这些推理链条在人类解决复杂问题时非常常见,我们会自然地使用一系列工具,思考问题并推理下一步需要做什么。如果遇到错误,我们会回过头重新考虑。很多这样的智能链条数据今天根本不存在。这是一个需要生成的数据例子。

退一步讲,首先需要在数据上取得的进展是增加数据的复杂性,朝前沿数据迈进。其次是增加数据的生产量,捕捉更多人类在实际工作中的行为。

David George:

更多捕捉人类在工作中的实际操作?

Alexandr Wang:

是的,捕捉更多人类的操作行为,同时投资于合成数据或混合数据。利用合成数据,同时让人类参与其中,从而生成更高质量的数据。我们需要像对待芯片生产一样看待数据生产。

就像我们讨论芯片生产的边界,确保有足够的生产能力来制造芯片。对于数据也是一样的,我们需要有效的数据生产边界,能够生成海量数据来支持模型训练。

最后一个经常被忽视的方面是对模型的测量,确保我们能够科学地分析模型的不足之处,从而精确确定需要添加哪种数据来提高模型的性能。

David George:

大科技公司相对于独立实验室,在数据资源上有多大的优势呢?

Alexandr Wang:

大公司在利用现有数据资源时面临很多监管问题。你可以看到,在生成式 AI 之前, Meta 曾利用所有公开的Instagram照片及其标签来训练非常优秀的图像识别算法,但这在欧洲遇到了许多监管问题,最终变得非常麻烦。

所以如何处理这些数据优势从监管角度来看,特别是在欧洲,还需要进一步观察。我认为大实验室的真正优势在于它们有非常盈利的业务,能够为 AI 项目提供几乎无限的资金。

题图来自Unsplash,基于 CC0 协议。

相关教程