Llama 3-prestaties en kostenbenchmarks

Portrait of Sylvain Josserand
door Sylvain Josserand
3 min lezen
Laatst bijgewerkt op

Belangrijkste punten:

  • De Nvidia L4 GPU is de ultieme keuze voor Llama 3-8B op de VM's van GCP. Dit levert de beste prestaties voor je geld op.
  • Voor het draaien van Llama 3-8B heb je minimaal een GPU met 16GB VRAM én 16GB RAM nodig.

Llama 3-prestaties op Google Cloud Platform (GCP) Compute Engine

Parseur extraheert tekstuele gegevens uit documenten met behulp van Large Language Models (LLM's).
Wij onderzoeken continu nieuwe manieren om data sneller, nauwkeuriger en voordeliger te extraheren.
Toen Llama 3 werd aangekondigd, waren we benieuwd naar de daadwerkelijke prestaties en kosten in onze infrastructuur.
Hoe snel werkt het model? Welke kosten zijn eraan verbonden?
En: welke GPU levert de beste prijs-prestatie voor Llama 3?

Die vragen beantwoorden we in dit artikel.

Llama 3-8B Benchmarkresultaten en kostenvergelijking

We hebben Llama 3-8B getest op Google Cloud Platform Compute Engine met verschillende typen GPU's.
Hiervoor gebruikten we het Hugging Face Llama 3-8B model.

Machinetype vCPU's RAM Nvidia GPU VRAM Tokens/s $/maand $/1M tokens†
n1 8 52GB T4 16GB 0,43 $482,45 $431,82
g2 4 16GB L4 24GB 12,75 $579,73 $17,54
n1 8 52GB P100 16GB 1,41 $1121,20 $306,78
n1 4 15GB V100 16GB 1,30 $1447,33 $429,52

† Kosten per 1.000.000 tokens, uitgaande van een server die 24/7 draait gedurende 30 dagen, met alleen de standaard maandkorting (dus geen spot-instanties en geen committed use-korting).

Methodologie

  • We gebruiken de standaard FP16-versie van Llama 3 van Hugging Face, zo dicht mogelijk bij de standaardinstellingen.
  • Inference op CPU werkt niet standaard en vereist aanpassingen die buiten de scope van dit artikel vallen.
  • OS: Debian 11 met kernel 5.10.205-2, geleverd door Google Cloud Platform voor deep learning VM's.
  • Opslag: 200GB SSD. Door het omvangrijke model is SSD-opslag sterk aan te raden voor snelle laadtijden.
  • GCP-regio: europe-west4.

Opmerkingen

  • Het Meta-Llama-3-8B-model beslaat 15GB aan opslagruimte.
  • Het Meta-Llama-3-70B-model beslaat 132GB opslag en is nog niet getest.
  • Nvidia A100 is niet meegenomen, aangezien deze in de regio's europe-west4 en us-central1 op GCP niet beschikbaar is.
  • Nvidia K80 is niet getest: de beschikbare drivers zijn te oud en niet compatibel met de gebruikte CUDA-versie voor deze benchmarks.
  • Pogingen om het model via de Meta Github repository op 16GB VRAM te draaien resulteerden in out-of-memory fouten. Alle benchmarks zijn daarom uitgevoerd met het Hugging Face-model, waarbij dit probleem niet speelt.

Conclusie

Er lijkt nog steeds sprake van schaarste aan Nvidia A100 GPU-instanties op Google Cloud Platform.
Van de beschikbare GPU's biedt de Nvidia L4 verreweg de beste prijs-prestatieverhouding voor Llama 3-8B, en overtreft daarmee duidelijk alle andere geteste opties.

Laatst bijgewerkt op

AI-gebaseerde data-extractiesoftware.
Begin vandaag nog met Parseur.

Automatiseer het extraheren van tekst uit e-mails, PDF’s en spreadsheets.
Bespaar honderden uren handmatig werk.
Omarm werkautomatisering met AI.

Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot