DeepSeek 和 OpenAI 如何玩不同的游戏

本文基于 Lex Fridman Podcast 的讨论： 点击此处收听该集。

在此次对话中，Lex Fridman 与 Dylan Patel 和 Nathan Lambert 讨论了人工智能的最新发展，重点讨论了 DeepSeek、中国的人工智能野心、NVIDIA 在全球人工智能竞赛中的角色以及人工智能超级集群的未来。讨论内容涵盖人工智能效率突破、争夺半导体主导地位的地缘政治之争以及塑造人工智能未来的关键参与者。

人工智能正在以惊人的速度发展，但方式却与大多数人预期的不同。

新闻标题大肆宣扬更大的模型、更多的参数和令人惊叹的新功能。但在所有的炒作之下，一场更安静的革命正在发生：让人工智能更高效、更具成本效益、更具地缘政治战略性。

如果你留心观察，就会发现一个大现象——中国的人工智能领域正在以很少有人预料到的方式加速发展。

更智能的 AI 模型：专家混合方法

大型语言模型 (LLM) 需要大量的计算能力，这已经不是什么秘密了。从头开始训练一个模型可能要花费数亿美元，而运行它呢？这又是一个无底洞。人工智能的未来不仅取决于谁拥有最好的算法，还取决于谁能想出如何构建强大的人工智能模型没有服务器成本消耗了一个国家 GDP。这正是发生重大转变的地方。

工程师们不再无休止地增加模型尺寸，而是越来越了解这些系统的实际运行方式。

进入 专家组合 模型。

想象一下，你正在组建一个专家小组，但不是让每个专家都参与解决每个问题，而是只激活最适合这项工作的专家。这些新模型正是如此。不是让庞大的神经网络全力处理每个请求，而是在任何给定时间只有少数“专家”子模型亮起。结果如何？效率大幅提升——减少计算和能耗——同时不牺牲智能。

这不仅仅是理论上的。

中国最近推出的一些人工智能模型证明了这种方法在实际应用中是有效的。通过微调计算分配方式，它们的性能可与西方最好的模型相媲美，但成本却只是西方的一小部分。

底层优化的突破

这给我们带来了下一个重大转变： 低级优化.

大多数 AI 公司都依赖现有的软件框架（如 NVIDIA 开发的 CUDA）来训练模型。但这些框架并非为实现最高效率而设计，而是为通用性而构建。目前真正取得突破的公司是那些 重新设计 人工智能利用硬件的方式。

他们不仅仅使用 GPU，还最大限度地发挥 GPU 的性能，重写 GPU 编程规则，使计算更快、更精简、更便宜。

计算能力的竞争

而当谈到硬件时，尺寸很重要。

一些 AI 领域的巨头运营着庞大的计算集群，本质上是装有数万个 GPU 的巨型服务器群。作为参考，Meta 拥有一个由 60,000 到 100,000 个 H100 级 GPU 组成的训练集群。中国最新的 AI 模型正在由大约 50,000 个 GPU 组成的集群上进行训练——火力足以与世界一流水平相媲美。

这些投资的规模表明，人工智能不再只是科技行业的军备竞赛；它是一项国家优先事项。

人工智能的地缘政治棋盘

当然，人工智能领域不仅仅取决于谁能以最快的速度训练模型，还取决于谁能 实际得到 必要的硬件。这就是地缘政治发挥作用的地方。

美国对高端人工智能芯片的出口管控愈发严格，限制其向中国销售。英伟达对此作出回应，专门针对中国市场推出了精简版 GPU。

这意味着，尽管中国人工智能公司仍可以训练大规模模型，但他们不得不使用性能稍差的硬件。但有趣的是：这些限制正在迫使中国人工智能公司更上一层楼 更多的 高效。他们不再依靠无限计算能力蛮力爬上顶峰，而是被迫进行创新。

他们正在优化软件、重新思考架构，并寻找西方公司尚未考虑过的方法来提高性能。具有讽刺意味的是，这些限制反而让他们成为了更强大的竞争对手。

我们正在接近通用人工智能吗？

然后还有一个笼罩一切的大问题：我们距离通用人工智能（AGI）还有多远？

有人认为，当今的模型已经展现出这种能力的端倪。现代人工智能能够适应多种任务——推理、解决问题、创造——这表明我们在通用人工智能的道路上可能比人们想象的要走得更远。

凭借强大的制造能力，中国在加速人工智能发展方面具有得天独厚的优势。尽管美国和欧洲在人工智能软件领域占据主导地位，但中国是人工智能硬件领域的中坚力量。中国控制着全球半导体供应链的很大一部分，这使其在大规模生产训练和部署人工智能系统所需的芯片方面具有优势。

台湾：人工智能宇宙的中心

这让我们想到了台湾，它是整个全球人工智能竞赛的无名英雄。台湾半导体制造公司 (TSMC) 生产世界上最先进的人工智能芯片。几乎每个人工智能模型——无论是 OpenAI 的 GPT、谷歌的 Gemini 还是中国最新的深度学习系统——都依赖于台积电制造的芯片。

如果台积电的供应链出现任何中断，其连锁反应将波及整个 每一个 人工智能已不再仅仅关乎编码突破，还关乎全球供应链、战略联盟和地缘政治稳定。

人工智能的未来：效率致胜

那么，这一切给我们带来了什么呢？

人工智能正在从“谁拥有最大的模型”的蛮力竞争转变为一场更具战略性的游戏，即效率、硬件掌握和地缘政治定位。那些想出如何优化、扩展和有效部署人工智能的公司（和国家）将成为未来的主宰者。如果你没有关注这些转变，你就错过了人工智能发展方向的真正故事。

这不仅仅是华而不实的演示或破纪录的基准分数。

这取决于谁 实际上 从长远来看，谁能赢得 AI 竞赛——谁能构建不仅功能强大而且实用、可扩展且可持续的模型。那场竞赛呢？它正变得越来越有趣。

DeepSeek 和 OpenAI 如何玩不同的游戏

更智能的 AI 模型：专家混合方法

底层优化的突破

计算能力的竞争

人工智能的地缘政治棋盘

我们正在接近通用人工智能吗？

台湾：人工智能宇宙的中心

人工智能的未来：效率致胜

发布者蒋兆和

你可能还会喜欢

2024 年人工智能领域发生的重大事件

深入探讨：Adeel Khan 谈 Microsoft Copilot 和企业 AI 的未来

你需要知道的 Claude AI 技巧：2025 年最佳 ChatGPT 替代方案

什么是模型上下文协议 (MCP)？面向开发者和 AI 团队的简易指南

留下你的评论：
取消回复

留下你的评论：

最新文章

具有记忆功能的 GPT：它对你意味着什么以及它为何更智能

OpenAI 的 o3 和 o4-mini：彻底改变多模态推理

如何使用 LangGPT 优化提示并获得更好的 AI 响应

阿里巴巴法学硕士 vs OpenAI：东方如何在人工智能领域奋起直追

助力业务增长的最佳 AI 通讯

类别

快速链接

DeepSeek 和 OpenAI 如何玩不同的游戏

更智能的 AI 模型：专家混合方法

底层优化的突破

计算能力的竞争

人工智能的地缘政治棋盘

我们正在接近通用人工智能吗？

台湾：人工智能宇宙的中心

人工智能的未来：效率致胜

发布者 蒋兆和

分享这篇文章

订阅以获取最新博客文章更新

你可能还会喜欢

留下你的评论： 取消回复

留下你的评论：

最新文章

助力业务增长的最佳 AI 通讯

类别

快速链接

发布者蒋兆和

留下你的评论：
取消回复