在快速发展的机器学习领域,人工智能初创公司对 GPU 的需求与日俱增。GPU 成了 AI 创业公司们构建核心资源,甚至颠覆创新的关键资源和基础设施。然而,这也让 GPU 资源的价格水涨船高。对于 AI 创业来讲,是应该构建专用 GPU 机器还是采用 GPU 云服务?在不同阶段,应该采用什么样的 GPU 服务?这是摆在所有 AI 创业公司面前的一个选择题。

AI 创业,GPU 方案有几种?

一般来讲,AI 创业在购买 GPU 或相关服务时,有三种方案。一种是自己购买 GPU,然后自己组建本地 GPU 服务器,用于模型的训练或微调等工作。另一种是通过 GPU 共享租赁平台,来租用相应的 GPU 机器; io.net是近期非常火热的去中心化GPU算力平台,本质上,它也是一个共享GPU算力平台。最后,就是购买 GPU 云服务,这种平台提供 GPU 机器以及配套的软件、备份等服务。

共享 GPU 租赁服务与 GPU 云服务的差别是什么?

自建的方案很好理解。不过,共享 GPU 租赁服务与 GPU 云服务,听上去差不多,具体有什么区别呢?

首先,从定义和应用范围来看,GPU 云服务是一种提供高性能图形处理能力的云计算服务,它支持复杂的图形和并行计算任务,广泛应用于人工智能、深度学习、图像处理、科学计算等领域。而共享 GPU 租赁服务则更侧重于将 个人、企业限制的GPU 资源接入平台方,终端用户可以根据需求随时使用 GPU 资源。前者可能由于平台的不同,会提供更多 AI 相关的服务,例如云备份、带宽资源、托管、模型部署等,而后者的服务模式更像是众包模式,数据合规性、资源稳定性是无法保障的。

其次,从成本角度来看,共享GPU 租赁服务具有显著的成本优势。通过将GPU资源作为服务提供,用户可以避免购买昂贵的硬件设备,并按实际使用情况支付费用。这种按需付费的模式使得用户能够更有效地管理成本,特别是在项目初期或需求不确定的情况下。

此外,两者在灵活性方面也有所不同。GPU云服务通常是通过 NVIDIA 直接采购 GPU 部署至云端,因此可以根据客户需求直接采购。同时,通过虚拟化技术提供可伸缩的 GPU 资源,用户可以根据实际需求进行灵活配置,随时增加或减少计算资源。而共享 GPU 租赁服务资源比较受限,往往消费级显卡非常多,如4090。但高端显卡几乎没有,例如A100、H100。

最后,从安全性角度来看,GPU 云服务通常提供安全可靠的数据存储和传输,以保护用户的隐私和机密信息。而共享GPU租赁,由于是众包模式,企业无从得知自己所租用的GPU在各地、属于何人。也不能稳定的占用固定数量固定时间的GPU资源。 同时,共享GPU租赁也没有完善的技术支持的,如果出现问题,可能还要创业团队自己为此买单。

那么在不同的创业阶段,AI 创业团队应该选择什么样的方案呢?

AI 创业初期,你该自购还是选择 GPU 云服务?

在创业最初期,自己购买 GPU 来自建底层设施,共享GPU租赁,或是购买 GPU 云服务,都是可行的方案。关键的差别在成本、技术专业能力、可扩展性等方面。

模型训练阶段

在本地自建 GPU 机器,初期投入成本很大。RTX 4090目前市场价为 2 万左右,A5000 1.6 万左右,A6000 3万左右,A100 根据版本不同每张卡5- 15万元,H100 每张卡30万左右。创业初期,创业团队资金往往只能购买 4090 这样的消费级显卡,或 A5000 这样的低端显卡,用于初期模型训练。至于 GPU 租赁平台,由于其资源分布广,卡间互联的带宽与延时无法保证,因此在大模型训练或者需要多卡多机集群训练的时候网络性能会严重限制GPU的性能发挥,不适合大型模型的训练。而 GPU 云服务由于部署在相同的数据中心,同时数据中心有专门的 Infiniband/RoCE 400Gbps 网络,或者是 10Gbps 的私网网络,因此可以实现大规模多机与集群训练。

业务上线阶段

业务模型验证可行后,产品上架面向终端用户,需要将自己的模型托管至云端。此时,就会面临选择共享 GPU 还是 GPU 云厂商。如果终端流量没有明显的突增,使用共享 GPU 风险可控。但是,AI 产品产生爆款往往就是瞬间。也许某个 up 主或者博主推荐,海量用户就会瞬时涌来,共享 GPU 平台是无法响应这种资源突增的。但是具备 SLA 保障的 GPU 云厂商可以 7×24 小时响应服务扩容,可以更好应对这种流量激增。

总之,在这个阶段,如果预算有限,团队自身技术能力尚可,并且只是出于训练模型的目的,那么可以购买 GPU 自建服务器。产品上架初期,可以选择共享 GPU 平台验证业务模式。

团队发展期

随着业务的增长和数据的积累,创业者可能需要更强大的计算能力来支持更复杂的模型训练和推理任务。此时,团队就需要高端 GPU 来支持业务发展。自行采买高端 GPU,前期投入成本非常高,而且国内也没有采买渠道,可能要成倍加价才能买到。因此,在这个阶段,创业团队需要更灵活、可扩展、安全性更高的 GPU 服务方案。

在这一阶段可以选择 可靠的 GPU 云厂商。如果业务前景可期,可以选择与云厂商签订长期锁定方案,换取更低折扣。

需要指出的是,共享 GPU 租赁平台,在业务规模不大,或模型训练的数据量不大的情况,可以很好的帮助创业团队节省成本。但是一旦确认业务可行,最好尽早将业务迁移到可靠的 GPU 云厂商,比如 DigitalOCean 的 Paperspace

当客户变多,GPU 云服务

当业务发展到一定程度,AI 创业团队可能会遇到以下几种情况:

  • 算力需求激增:当创业团队的项目需要处理大规模数据或进行复杂的深度学习训练时,传统的计算资源可能无法满足需求。
  • 成本上涨:购买和维护高性能的GPU硬件需要大量的资金投入,并且随着技术的不断更新,硬件的升级和替换也会带来额外的成本。
  • 弹性伸缩需求变化频繁:AI 项目的算力需求可能会随着项目的进展和数据的增长而发生变化。
  • 技术支持与维护:需要专业 IT 支持团队,可以让他们更专注于 AI 项目的研发和创新,而无需顾忌自建的 GPU 服务底层设施。

当团队开始遇到以上这些情况时,不论是自建的 GPU 服务,还是 共享GPU 租赁服务都无法满足团队的需求。这时就需要考虑使用正规的 GPU 云服务了,比如 DigitalOcean 旗下的 PaperSpace。

这类 GPU 云服务适合中小企业,它具备以下几种特点:

  • 灵活性、可扩展性:用户可以根据自己对 GPU 的需要,来增加或减少 GPU 资源、存储资源等,成本也更加可控。客户如果遇到用户激增,需要紧急增加若干 GPU 服务器时,这类 GPU 云厂商可以做到 7×24 小时响应扩容业务。而且,平台会一般会快速更新各种型号的 GPU,当创业公司需要发展新的模型时,可以根据需求来选择合适的资源配置。
  • 成本控制和灵活的定价:GPU 云服务是按需付费的,用户只需要根据订购的资源付费即可。也可以选择包月、包年,获取更低折扣。
  • 友好的开发体验:有些 GPU 云服务提供从研究到产品化所需的功能与服务,比如Paperspace 就会提供预装的 ML 框架和 CUDA 驱动的“ML in a Box”模板,支持 SSH 访问,以及模型部署等功能。
  • 更好的网络连接与带宽、存储:相对于 GPU 租赁平台,GPU 云服务会提供更好的网络连接。例如 Paperspace 为每个实例提供 1Gbps 专用互联网网络;10Gbps的私有网络互联,以及在 H100 的 GPU 上提供 NVLINK 支持与机间 3.2Tb/s 的低延时互联网络;在存储方面,Paperspace 的提供本地和共享存储资源并可以接入第三方的容器仓库与 DigitalOcean 对象存储,提供几乎无限的存储能力,DigitalOcean 的对象存储还内置了CDN 功能,可以直接提供云原生的对外存储服务。

总之,创业团队需要根据自身的预算、技术能力、算力需求等方面来判断是自建、共享GPU租赁还是 GPU 云服务。同时,在这个瞬息万变的热门赛道上,时间也是 AI 创业者需要考虑的因素,更灵活的配置与更完善的技术服务,也能让你的产品先人一步获取更多用户。

最后,DigitalOcean 旗下的 Paperspace 可提供包括 H100、A100、A6000、A5000 等多种型号的 GPU。Paperspace 的定价是以秒为单位的,非常适合初创企业。用户注册之后,可以直接在平台上用 H100 训练模型。如需要详细咨询更多业务与解决方案,可以访问网站,或添加以下微信咨询。