训练 AI 模型，可以更省钱

（原标题：训练 AI 模型，可以更省钱）

如果您希望可以时常见面，欢迎标星收藏哦~

来源：内容来自VentureBeat

许多公司都寄希望于人工智能能彻底改变他们的业务，但这些希望很快就会被训练复杂人工智能系统的惊人成本所粉碎。埃隆·马斯克指出，工程问题往往是进展停滞的原因。在优化 GPU 等硬件以有效处理训练和微调大型语言模型的大量计算需求时，这一点尤为明显。

虽然大型科技巨头有能力在培训和优化上投入数百万甚至数十亿美元，但中小型企业和发展较短的初创企业往往发现自己被边缘化了。在本文中，我们将探讨一些策略，这些策略可以让即使是资源最受限的开发人员也能够在不花大钱的情况下训练人工智能模型。

一毛钱一美元

您可能知道，创建和发布 AI 产品（无论是基础模型/大型语言模型(LLM) 还是经过微调的下游应用程序）在很大程度上依赖于专用 AI 芯片，特别是 GPU。这些 GPU 非常昂贵且难以获得，以至于 SemiAnalysis在机器学习 (ML) 社区中创造了“GPU 丰富”和“GPU 贫乏”这两个术语。LLM 的训练成本可能很高，主要是因为与硬件相关的费用（包括采购和维护），而不是 ML 算法或专家知识。

训练这些模型需要在强大的集群上进行大量计算，而较大的模型则需要更长的时间。例如，训练LLaMA 2 70B需要将 700 亿个参数暴露给 2 万亿个 token，这至少需要 10^24 次浮点运算。如果你的 GPU 能力很差，你应该放弃吗？不。

替代策略

如今，科技公司正在利用多种策略来寻找替代解决方案，减少对昂贵硬件的依赖，并最终节省资金。

一种方法是调整和精简训练硬件。尽管这条路线在很大程度上仍处于实验阶段，而且投资密集，但它有望在未来优化 LLM 训练。此类硬件相关解决方案的示例包括Microsoft和Meta的定制 AI 芯片、 Nvidia和OpenAI的新半导体计划、百度的单计算集群、 Vast的租赁 GPU以及Etched的搜狐芯片等。

虽然这是取得进展的重要一步，但这种方法仍然更适合那些有能力现在投入大量资金以减少以后开支的大公司。对于现在希望创造人工智能产品的财力有限、初入此道的新手来说，这种方法并不适用。

创新软件

考虑到预算较低，还有另一种优化 LLM 培训并降低成本的方法——通过创新软件。这种方法更实惠，大多数 ML 工程师都可以使用，无论他们是经验丰富的专业人士，还是有抱负的 AI 爱好者和希望进入该领域的软件开发人员。让我们更详细地研究一下这些基于代码的优化工具。

混合精度训练

情况：假设您的公司有 20 名员工，但您租用的办公空间可供 200 名员工使用。显然，这显然是浪费资源。在模型训练过程中也会出现类似的低效率，其中 ML 框架通常会分配比实际需要更多的内存。混合精度训练通过优化来纠正这种情况，从而提高速度和内存使用率。

工作原理：为了实现这一点，将较低精度的 b/float16 运算与标准 float32 运算相结合，从而减少每次计算操作。对于非工程师来说，这听起来像是一堆技术术语，但它的本质含义是，AI 模型可以更快地处理数据，并且需要更少的内存，而不会影响准确性。

改进指标：该技术可使 GPU 上的运行时间提高 6 倍，TPU （谷歌的张量处理单元）上的运行时间提高 2-3 倍。Nvidia 的APEX和 Meta AI 的PyTorch等开源框架支持混合精度训练，使其易于实现管道集成。通过实施此方法，企业可以大幅降低 GPU 成本，同时仍保持可接受的模型性能水平。

激活检查点

它是什么：如果您受限于有限的内存，但同时又愿意投入更多时间，那么检查点可能是适合您的技术。简而言之，它有助于通过将计算保持在最低限度来显著减少内存消耗，从而无需升级硬件即可进行 LLM 培训。

工作原理：激活检查点的主要思想是在模型训练期间存储一组基本值，并仅在必要时重新计算其余值。这意味着系统不会将所有中间数据都保存在内存中，而是只保留关键数据，从而在此过程中释放内存空间。这类似于“到时再谈”原则，这意味着不要为不太紧急的事情烦恼，直到它们需要注意为止。

改进指标：在大多数情况下，激活检查点可将内存使用量减少高达 70%，尽管它也将训练阶段延长了大约 15-25%。这种公平的权衡意味着企业可以在现有硬件上训练大型 AI 模型，而无需向基础设施投入额外资金。前面提到的 PyTorch 库支持检查点，使其更易于实现。

多 GPU 训练

它是什么：想象一下，一家小面包店需要快速生产一大批法棍面包。如果一个面包师单独工作，可能需要很长时间。如果有两个面包师，这个过程会加快。加上第三个面包师，速度会更快。多 GPU 训练的运作方式大致相同。

工作原理：您无需使用一个 GPU，而是同时使用多个 GPU。因此，AI 模型训练分布在这些 GPU 之间，使它们能够协同工作。从逻辑上讲，这与之前的方法检查点有点相反，后者可以降低硬件采购成本，以换取更长的运行时间。在这里，我们使用更多的硬件，但最大限度地利用硬件并最大限度地提高效率，从而缩短运行时间并降低运营成本。

改进指标：以下是用于使用多 GPU 设置训练 LLM 的三种强大工具，根据实验结果按效率升序排列：

DeepSpeed：一个专门为使用多个 GPU 训练 AI 模型而设计的库，其速度比传统训练方法快 10 倍。

FSDP：PyTorch 中最流行的框架之一，它解决了 DeepSpeed 的一些固有限制，将计算效率提高了 15-20%。

YaFSDP：最近发布的用于模型训练的 FSDP 增强版本，比原始 FSDP 方法加速 10-25%。

结论

通过使用混合精度训练、激活检查点和多 GPU 使用等技术，即使是中小型企业也可以在 AI 训练方面取得重大进展，无论是在模型微调还是在创建方面。这些工具提高了计算效率，减少了运行时间并降低了总体成本。此外，它们还允许在现有硬件上训练更大的模型，从而减少了昂贵的升级需求。通过使高级 AI 功能的访问民主化，这些方法使更广泛的科技公司能够在这个快速发展的领域进行创新和竞争。

俗话说，“人工智能不会取代你，但使用人工智能的人会。”现在是时候拥抱人工智能了，通过上述策略，即使预算很低，也有可能做到这一点。

https://venturebeat.com/ai/the-economics-of-gpus-how-to-train-your-ai-model-without-going-broke/

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3858期内容，欢迎关注。

『半导体第一垂直媒体』

实时专业原创深度

公众号ID：icbank

喜欢我们的内容就点“在看”分享给小伙伴哦