Llama 3 Benchmark: Performance, Kosten und GPUs im Vergleich

Portrait of Sylvain Josserand
von Sylvain Josserand
3 Minuten Lesezeit
Zuletzt aktualisiert am

Wichtigste Erkenntnisse:

  • Der Sweet Spot für Llama 3-8B auf GCP-VMs ist die Nvidia L4 GPU. Sie bietet das beste Preis-Leistungs-Verhältnis.
  • Sie benötigen eine GPU mit mindestens 16 GB VRAM und 16 GB System-RAM, um Llama 3-8B auszuführen.

Llama 3 Performance auf Google Cloud Platform (GCP) Compute Engine

Parseur extrahiert Textdaten aus Dokumenten mithilfe großer Sprachmodelle (LLMs). Wir suchen ständig nach neuen Wegen, um Daten noch genauer und kostengünstiger zu extrahieren. Als Llama 3 veröffentlicht wurde, waren wir natürlich sofort neugierig, wie gut es im Vergleich zu anderen Modellen abschneidet und wie hoch die Kosten für den Betrieb sind. Fragen, die uns dabei besonders interessierten, waren: Wie schnell ist Llama 3? Wie hoch sind die Kosten für die Nutzung? Welche GPU bietet das beste Preis-Leistungs-Verhältnis für Llama 3?

In diesem Artikel werden wir diese Fragen beantworten und unsere Ergebnisse im Detail vorstellen.

LLAMA3-8B-Benchmarks mit Kostenvergleich

Wir haben Llama 3-8B auf der Compute Engine von Google Cloud Platform mit verschiedenen GPUs getestet. Für unsere Tests haben wir das Hugging Face Llama 3-8B-Modell verwendet.

Maschinentyp vCPUs RAM Nvidia GPU VRAM Token/s $/Monat $/1 Mio. Token†
n1 8 52GB T4 16GB 0.43 $482.45 $431.82
g2 4 16GB L4 24GB 12.75 $579.73 $17.54
n1 8 52GB P100 16GB 1.41 $1121.20 $306.78
n1 4 15GB V100 16GB 1.30 $1447.33 $429.52

† Kosten pro 1.000.000 Token, unter der Annahme, dass ein Server einen ganzen Monat lang rund um die Uhr in Betrieb ist und nur der reguläre monatliche Rabatt verwendet wird (keine unterbrechbare "Spot"-Instanz, keine zugesagte Nutzung).

Methodik

  • Wir verwenden die Standard-FP16-Version von Llama 3 von Hugging Face, so nah wie möglich am Auslieferungszustand.
  • CPU-basierte Inferenz funktioniert nicht out-of-the-box und erfordert einige Modifikationen, die nicht Gegenstand dieses Beitrags sind.
  • Das Betriebssystem ist Debian 11 mit 5.10.205-2 Kernel, bereitgestellt von Google Cloud Platform für Deep-Learning-VMs.
  • Der Festplattenspeicher beträgt 200 GB, SSD. Angesichts der Größe des Modells wird empfohlen, SSD zu verwenden, um die Ladezeiten zu verkürzen.
  • Die GCP-Region ist europe-west4.

Hinweise

  • Das Meta-Llama-3-8B-Modell benötigt 15 GB Festplattenspeicher.
  • Das Meta-Llama-3-70B-Modell benötigt 132 GB Festplattenspeicher. Es wurde noch nicht getestet.
  • Nvidia A100 wurde nicht getestet, da es weder in der Region europe-west4 noch in der Region us-central1 verfügbar ist.
  • Nvidia K80 wurde nicht getestet, da die verfügbaren Treiber zu alt und nicht mehr mit der CUDA-Version kompatibel sind, die wir in unseren Benchmarks verwenden.
  • Der Versuch, das Modell aus dem Meta Github Repository mit 16 GB VRAM auszuführen, schlug mit einem Out-of-Memory-Fehler fehl. Alle Tests wurden mit dem Modell von Hugging Face durchgeführt, bei dem dieses Problem nicht auftrat.

Schlussfolgerung

Es sieht so aus, als ob es immer noch einen Mangel an Angebot an Nvidia A100 GPU-Instanzen auf der Google Cloud Platform gibt. Von den verfügbaren GPUs bietet die Nvidia L4 das beste Preis-Leistungs-Verhältnis für Llama 3-8B und stellt damit die anderen GPUs in den Schatten.

Zuletzt aktualisiert am

KI-basierte Datenextraktionssoftware.
Nutzen Sie Parseur noch heute.

Automatisieren Sie die Textextraktion aus E-Mails, PDFs und Tabellen.
Sparen Sie Hunderte von Stunden manueller Arbeit.
Nutzen Sie die Arbeitsautomatisierung mit KI.

Kostenlos anmelden
Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot