Llama 3 prestanda och kostnadsjämförelser

Viktiga slutsatser:

  • Den bästa lösningen för att köra Llama 3-8B på GCP:s virtuella maskiner är Nvidia L4 GPU. Denna kombination ger klart mest värde för pengarna.
  • Du behöver minst 16GB VRAM och 16GB RAM för att köra Llama 3-8B smidigt.

Llama 3 prestanda på Google Cloud Platform (GCP) Compute Engine

Parseur extraherar textdata från dokument med hjälp av stora språkmodeller (LLM). Vi undersöker ständigt nya sätt att extrahera data ännu mer exakt och kostnadseffektivt. När Llama 3 lanserades blev vi genast nyfikna på dess prestanda och kostnader. Hur snabb är den? Vad kostar det att köra inferens? Vilken GPU är mest prisvärd för Llama 3?

Alla dessa frågor – och fler – får svar i denna artikel.

Llama 3-8B Benchmark och kostnadsjämförelse

Vi har testat Llama 3-8B på Google Cloud Platforms Compute Engine med flera olika GPU:er. Till testerna användes Hugging Face Llama 3-8B-modellen.

Maskintyp vCPU:er RAM Nvidia GPU VRAM Token/s $/månad $/1M tokens†
n1 8 52GB T4 16GB 0.43 $482.45 $431.82
g2 4 16GB L4 24GB 12.75 $579.73 $17.54
n1 8 52GB P100 16GB 1.41 $1121.20 $306.78
n1 4 15GB V100 16GB 1.30 $1447.33 $429.52

† Kostnad per 1 000 000 tokens, givet att servern kör dygnet runt under en 30-dagarsperiod, endast med ordinarie månadsrabatt (ingen avbrottsbar "spot"-instans, inga åtagandebaserade priser).

Metodik

  • Vi använder standard FP16-versionen av Llama 3 från Hugging Face, så nära "out-of-the-box" som möjligt.
  • CPU-baserad inferens fungerar inte direkt och kräver ytterligare modifieringar, vilket inte täcks här.
  • Operativsystemet är Debian 11 med kernel 5.10.205-2, anpassad för deep learning-VM:ar på Google Cloud Platform.
  • Diskutrymmet är 200GB SSD. På grund av modellens storlek rekommenderas SSD för snabbare laddningstider.
  • GCP-region för testerna är europe-west4.

Noteringar

  • Meta-Llama-3-8B-modellen kräver 15GB diskutrymme.
  • Meta-Llama-3-70B-modellen kräver 132GB diskutrymme, men har ännu inte testats.
  • Nvidia A100 ingick inte i testerna eftersom den inte finns tillgänglig i regionerna europe-west4 eller us-central1.
  • Nvidia K80 testades inte eftersom de tillhörande drivrutinerna är för gamla och inte längre stödjer den CUDA-version som används i våra tester.
  • Försök att köra modellen från Meta Github repository med 16GB VRAM misslyckades på grund av minnesbrist. Samtliga tester utfördes därför med Hugging Face-modellen, där detta problem ej förekom.

Slutsats

Det är fortfarande svårt att få tag på Nvidia A100 GPU-instanser på Google Cloud Platform. Av de tillgängliga alternativen erbjuder Nvidia L4 det överlägset bästa värdet för Llama 3-8B och presterar betydligt bättre än övriga testade GPU:er.

Senast uppdaterad

Kom igång

Är du redo att eliminera manuellt arbete
från din verksamhet?

Skapa ett gratis konto på några minuter och se hur Parseur kan optimera ditt arbetsflöde.

Ingen modellträning krävs
Byggd för verkliga arbetsflöden, inte för experiment
Skalbar från ett enkelt gränssnitt till full API-integration