要点总结:
- 在 GCP 虚拟机上,Llama 3-8B 最具性价比的选择是 Nvidia L4 GPU。该方案提供了最优的性能与成本平衡。
- 至少需要 16GB 显存和 16GB 系统内存的 GPU 才能运行 Llama 3-8B 模型。
Google Cloud Platform (GCP) Compute Engine 上的 Llama 3 性能表现
Parseur 通过大语言模型 (LLMs) 从文档中提取文本数据。 我们一直在探索更加高效和低成本的数据提取方式。 Llama 3 发布后,我们立即对其实际表现和运行成本进行了深入研究。 我们关心的问题包括:Llama 3 的推理速度如何?实际成本是多少?哪种 GPU 方案的性价比最高?
本文将为你详细解答这些问题。
Llama 3-8B 基准测试与成本对比
我们在 Google Cloud Platform 的 Compute Engine 上,使用不同型号的 GPU 测试了 Llama 3-8B 模型。 测试采用了 Hugging Face 发布的 Llama 3-8B 模型。
机器类型 | vCPU数 | 内存 | Nvidia GPU | 显存 | Token/秒 | $/月 | $/百万Token† |
---|---|---|---|---|---|---|---|
n1 | 8 | 52GB | T4 | 16GB | 0.43 | $482.45 | $431.82 |
g2 | 4 | 16GB | L4 | 24GB | 12.75 | $579.73 | $17.54 |
n1 | 8 | 52GB | P100 | 16GB | 1.41 | $1121.20 | $306.78 |
n1 | 4 | 15GB | V100 | 16GB | 1.30 | $1447.33 | $429.52 |
† 成本计算以 7×24 小时连续运行,按一个自然月 30 天、常规月度折扣(不含可中断“现货”实例和承诺使用)为基础,结果为处理每 1,000,000 个 tokens 的估算值。
测试方法
- 使用 Hugging Face 上标准 FP16 版本的 Llama 3,几乎未做任何调整
- CPU 推理需要特别的设置,不在本篇讨论范围内
- 操作系统为 Debian 11,内核版本 5.10.205-2,为 Google Cloud Platform 深度学习虚拟机专用镜像
- 数据存储采用 200GB SSD。由于模型体积较大,推荐使用 SSD 以缩短加载时间
- GCP 区域为 europe-west4
说明
- Meta-Llama-3-8B 模型文件大小约为 15GB
- Meta-Llama-3-70B 模型约为 132GB(尚未开展相关测试)
- 由于 europe-west4 和 us-central1 区域暂无 Nvidia A100 实例,故未测试
- 由于驱动版本过旧且与当前 CUDA 版本不兼容,Nvidia K80 未纳入测试
- 按 Meta 官方 Github 仓库 指引在 16GB 显存上运行模型时,曾遇到 out-of-memory 报错。本次全部测试基于 Hugging Face 版本,无此问题。
结论
目前 Google Cloud Platform 上的 Nvidia A100 GPU 实例依然存在供不应求的现象。 以现阶段支持 Llama 3 的 GPU 类型来看,Nvidia L4 是运行 Llama 3-8B 的最佳性价比方案,显著优于其它 GPU 选择。
最后更新于