Google Cloud Platform (GCP) Compute Engine 上的 Llama 3 性能表现

Parseur 通过大语言模型 (LLMs) 从文档中提取文本数据。我们一直在探索更加高效和低成本的数据提取方式。 Llama 3 发布后，我们立即对其实际表现和运行成本进行了深入研究。我们关心的问题包括：Llama 3 的推理速度如何？实际成本是多少？哪种 GPU 方案的性价比最高？

本文将为你详细解答这些问题。

我们在 Google Cloud Platform 的 Compute Engine 上，使用不同型号的 GPU 测试了 Llama 3-8B 模型。测试采用了 Hugging Face 发布的 Llama 3-8B 模型。

机器类型	vCPU数	内存	Nvidia GPU	显存	Token/秒	$/月	$/百万Token†
n1	8	52GB	T4	16GB	0.43	$482.45	$431.82
g2	4	16GB	L4	24GB	12.75	$579.73	$17.54
n1	8	52GB	P100	16GB	1.41	$1121.20	$306.78
n1	4	15GB	V100	16GB	1.30	$1447.33	$429.52

† 成本计算以 7×24 小时连续运行，按一个自然月 30 天、常规月度折扣（不含可中断“现货”实例和承诺使用）为基础，结果为处理每 1,000,000 个 tokens 的估算值。

Meta-Llama-3-8B 模型文件大小约为 15GB
Meta-Llama-3-70B 模型约为 132GB（尚未开展相关测试）
由于 europe-west4 和 us-central1 区域暂无 Nvidia A100 实例，故未测试
由于驱动版本过旧且与当前 CUDA 版本不兼容，Nvidia K80 未纳入测试
按 Meta 官方 Github 仓库指引在 16GB 显存上运行模型时，曾遇到 out-of-memory 报错。本次全部测试基于 Hugging Face 版本，无此问题。

目前 Google Cloud Platform 上的 Nvidia A100 GPU 实例依然存在供不应求的现象。以现阶段支持 Llama 3 的 GPU 类型来看，Nvidia L4 是运行 Llama 3-8B 的最佳性价比方案，显著优于其它 GPU 选择。

最后更新于 2025年5月7日

Llama 3 性能与成本基准