Llama 3 のパフォーマンスとコストのベンチマーク

Portrait of Sylvain Josserand
執筆者 Sylvain Josserand
1 分で読了
最終更新日

主なポイント:

  • GCPのVMでLlama 3-8Bを実行する際、最もコストパフォーマンスに優れるGPUはNvidia L4です
  • Llama 3-8Bの動作には、最低16GBのVRAMと16GBのシステムRAMが必要です

Google Cloud Platform (GCP) Compute EngineでのLlama 3パフォーマンス

Parseurは、ドキュメントからテキストデータを抽出します。この作業に大規模言語モデル(LLM)を活用しています。 より効率的かつコストを抑えたデータ抽出手法の模索は、常に重要なテーマです。 Llama 3が公開されたタイミングで、その性能と価格面への関心が高まりました。 「どれだけ高速に処理できるのか?」「ランニングコストはどのくらいか?」 「最もコスト効率に優れたGPUはどれか?」 といった疑問を持ち、今回検証を行いました。

本記事では、その検証結果と考察をまとめています。

Llama3-8B ベンチマークとコスト比較

Google Cloud PlatformのCompute Engine上で、様々なGPUを用いてLlama 3-8Bモデルの検証を行いました。 利用したモデルはHugging Face提供のLlama 3-8Bです。

マシンタイプ vCPU RAM Nvidia GPU VRAM トークン/秒 $/月 $/100万トークン†
n1 8 52GB T4 16GB 0.43 $482.45 $431.82
g2 4 16GB L4 24GB 12.75 $579.73 $17.54
n1 8 52GB P100 16GB 1.41 $1121.20 $306.78
n1 4 15GB V100 16GB 1.30 $1447.33 $429.52

† 1,000,000トークン生成あたりの費用。サーバーを常時稼働し、GCP標準の月間割引のみを適用した場合(スポットインスタンスやコミットメントの利用なし)。

手法

  • Hugging Faceの標準FP16バージョンのLlama 3を基本的な構成のまま使用
  • CPUによる推論は追加の対応が必要なため、本検証では対象外
  • OSはDebian 11(カーネル5.10.205-2)、GCPの深層学習向けVMイメージを使用
  • ディスクは200GB SSD(大規模モデルのためSSD推奨)
  • GCPリージョンはeurope-west4

注意事項

  • Meta-Llama-3-8Bモデルはディスク上で約15GB必要
  • Meta-Llama-3-70Bモデルは約132GB必要。今回は未検証
  • Nvidia A100はeurope-west4およびus-central1リージョンで未提供のため検証対象外
  • Nvidia K80は対応ドライバが古く、ベンチマークで使用したCUDAバージョンと互換性がないため未検証
  • Meta Githubリポジトリのモデルを16GB VRAMで起動しようとした場合、メモリ不足でエラーとなりました。全ての検証はHugging Faceのモデルで実施しています。

結論

Google Cloud Platform上ではNvidia A100 GPUの供給不足が依然続いています。 現時点で利用可能なGPUの中では、Nvidia L4がllama3-8Bの実行において非常に優れたコストパフォーマンスを示しました。他のGPUと比べても圧倒的な差があります。

最終更新日

AIによるデータ抽出ソフトウェア。
今すぐParseurを始めよう。

メール、PDF、スプレッドシートからのテキスト抽出を自動化。
手作業の工数を数百時間削減。
AIによる業務自動化を体験しましょう。

Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot