主なポイント:
- GCPのVMでLlama 3-8Bを実行する際、最もコストパフォーマンスに優れるGPUはNvidia L4です
- Llama 3-8Bの動作には、最低16GBのVRAMと16GBのシステムRAMが必要です
Google Cloud Platform (GCP) Compute EngineでのLlama 3パフォーマンス
Parseurは、ドキュメントからテキストデータを抽出します。この作業に大規模言語モデル(LLM)を活用しています。 より効率的かつコストを抑えたデータ抽出手法の模索は、常に重要なテーマです。 Llama 3が公開されたタイミングで、その性能と価格面への関心が高まりました。 「どれだけ高速に処理できるのか?」「ランニングコストはどのくらいか?」 「最もコスト効率に優れたGPUはどれか?」 といった疑問を持ち、今回検証を行いました。
本記事では、その検証結果と考察をまとめています。
Llama3-8B ベンチマークとコスト比較
Google Cloud PlatformのCompute Engine上で、様々なGPUを用いてLlama 3-8Bモデルの検証を行いました。 利用したモデルはHugging Face提供のLlama 3-8Bです。
マシンタイプ | vCPU | RAM | Nvidia GPU | VRAM | トークン/秒 | $/月 | $/100万トークン† |
---|---|---|---|---|---|---|---|
n1 | 8 | 52GB | T4 | 16GB | 0.43 | $482.45 | $431.82 |
g2 | 4 | 16GB | L4 | 24GB | 12.75 | $579.73 | $17.54 |
n1 | 8 | 52GB | P100 | 16GB | 1.41 | $1121.20 | $306.78 |
n1 | 4 | 15GB | V100 | 16GB | 1.30 | $1447.33 | $429.52 |
† 1,000,000トークン生成あたりの費用。サーバーを常時稼働し、GCP標準の月間割引のみを適用した場合(スポットインスタンスやコミットメントの利用なし)。
手法
- Hugging Faceの標準FP16バージョンのLlama 3を基本的な構成のまま使用
- CPUによる推論は追加の対応が必要なため、本検証では対象外
- OSはDebian 11(カーネル5.10.205-2)、GCPの深層学習向けVMイメージを使用
- ディスクは200GB SSD(大規模モデルのためSSD推奨)
- GCPリージョンはeurope-west4
注意事項
- Meta-Llama-3-8Bモデルはディスク上で約15GB必要
- Meta-Llama-3-70Bモデルは約132GB必要。今回は未検証
- Nvidia A100はeurope-west4およびus-central1リージョンで未提供のため検証対象外
- Nvidia K80は対応ドライバが古く、ベンチマークで使用したCUDAバージョンと互換性がないため未検証
- Meta Githubリポジトリのモデルを16GB VRAMで起動しようとした場合、メモリ不足でエラーとなりました。全ての検証はHugging Faceのモデルで実施しています。
結論
Google Cloud Platform上ではNvidia A100 GPUの供給不足が依然続いています。 現時点で利用可能なGPUの中では、Nvidia L4がllama3-8Bの実行において非常に優れたコストパフォーマンスを示しました。他のGPUと比べても圧倒的な差があります。
最終更新日