Llama 3 性能与成本基准

Portrait of Sylvain Josserand
作者 Sylvain Josserand
2 分钟阅读
最后更新于

要点总结:

  • 在 GCP 虚拟机上,Llama 3-8B 最具性价比的选择是 Nvidia L4 GPU。该方案提供了最优的性能与成本平衡。
  • 至少需要 16GB 显存和 16GB 系统内存的 GPU 才能运行 Llama 3-8B 模型。

Google Cloud Platform (GCP) Compute Engine 上的 Llama 3 性能表现

Parseur 通过大语言模型 (LLMs) 从文档中提取文本数据。 我们一直在探索更加高效和低成本的数据提取方式。 Llama 3 发布后,我们立即对其实际表现和运行成本进行了深入研究。 我们关心的问题包括:Llama 3 的推理速度如何?实际成本是多少?哪种 GPU 方案的性价比最高?

本文将为你详细解答这些问题。

Llama 3-8B 基准测试与成本对比

我们在 Google Cloud Platform 的 Compute Engine 上,使用不同型号的 GPU 测试了 Llama 3-8B 模型。 测试采用了 Hugging Face 发布的 Llama 3-8B 模型

机器类型 vCPU数 内存 Nvidia GPU 显存 Token/秒 $/月 $/百万Token†
n1 8 52GB T4 16GB 0.43 $482.45 $431.82
g2 4 16GB L4 24GB 12.75 $579.73 $17.54
n1 8 52GB P100 16GB 1.41 $1121.20 $306.78
n1 4 15GB V100 16GB 1.30 $1447.33 $429.52

† 成本计算以 7×24 小时连续运行,按一个自然月 30 天、常规月度折扣(不含可中断“现货”实例和承诺使用)为基础,结果为处理每 1,000,000 个 tokens 的估算值。

测试方法

  • 使用 Hugging Face 上标准 FP16 版本的 Llama 3,几乎未做任何调整
  • CPU 推理需要特别的设置,不在本篇讨论范围内
  • 操作系统为 Debian 11,内核版本 5.10.205-2,为 Google Cloud Platform 深度学习虚拟机专用镜像
  • 数据存储采用 200GB SSD。由于模型体积较大,推荐使用 SSD 以缩短加载时间
  • GCP 区域为 europe-west4

说明

  • Meta-Llama-3-8B 模型文件大小约为 15GB
  • Meta-Llama-3-70B 模型约为 132GB(尚未开展相关测试)
  • 由于 europe-west4 和 us-central1 区域暂无 Nvidia A100 实例,故未测试
  • 由于驱动版本过旧且与当前 CUDA 版本不兼容,Nvidia K80 未纳入测试
  • Meta 官方 Github 仓库 指引在 16GB 显存上运行模型时,曾遇到 out-of-memory 报错。本次全部测试基于 Hugging Face 版本,无此问题。

结论

目前 Google Cloud Platform 上的 Nvidia A100 GPU 实例依然存在供不应求的现象。 以现阶段支持 Llama 3 的 GPU 类型来看,Nvidia L4 是运行 Llama 3-8B 的最佳性价比方案,显著优于其它 GPU 选择。

最后更新于

基于AI的数据提取软件。
立即开始使用Parseur。

自动提取电子邮件、PDF和电子表格中的文本。
节省数百小时的手动工作。
体验AI赋能的工作自动化。

Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot