Viktiga slutsatser:

Den bästa lösningen för att köra Llama 3-8B på GCP:s virtuella maskiner är Nvidia L4 GPU. Denna kombination ger klart mest värde för pengarna.
Du behöver minst 16GB VRAM och 16GB RAM för att köra Llama 3-8B smidigt.

Llama 3 prestanda på Google Cloud Platform (GCP) Compute Engine

Parseur extraherar textdata från dokument med hjälp av stora språkmodeller (LLM). Vi undersöker ständigt nya sätt att extrahera data ännu mer exakt och kostnadseffektivt. När Llama 3 lanserades blev vi genast nyfikna på dess prestanda och kostnader. Hur snabb är den? Vad kostar det att köra inferens? Vilken GPU är mest prisvärd för Llama 3?

Alla dessa frågor – och fler – får svar i denna artikel.

Llama 3-8B Benchmark och kostnadsjämförelse

Vi har testat Llama 3-8B på Google Cloud Platforms Compute Engine med flera olika GPU:er. Till testerna användes Hugging Face Llama 3-8B-modellen.

Maskintyp	vCPU:er	RAM	Nvidia GPU	VRAM	Token/s	$/månad	$/1M tokens†
n1	8	52GB	T4	16GB	0.43	$482.45	$431.82
g2	4	16GB	L4	24GB	12.75	$579.73	$17.54
n1	8	52GB	P100	16GB	1.41	$1121.20	$306.78
n1	4	15GB	V100	16GB	1.30	$1447.33	$429.52

† Kostnad per 1 000 000 tokens, givet att servern kör dygnet runt under en 30-dagarsperiod, endast med ordinarie månadsrabatt (ingen avbrottsbar "spot"-instans, inga åtagandebaserade priser).

Metodik

Vi använder standard FP16-versionen av Llama 3 från Hugging Face, så nära "out-of-the-box" som möjligt.
CPU-baserad inferens fungerar inte direkt och kräver ytterligare modifieringar, vilket inte täcks här.
Operativsystemet är Debian 11 med kernel 5.10.205-2, anpassad för deep learning-VM:ar på Google Cloud Platform.
Diskutrymmet är 200GB SSD. På grund av modellens storlek rekommenderas SSD för snabbare laddningstider.
GCP-region för testerna är europe-west4.

Noteringar

Meta-Llama-3-8B-modellen kräver 15GB diskutrymme.
Meta-Llama-3-70B-modellen kräver 132GB diskutrymme, men har ännu inte testats.
Nvidia A100 ingick inte i testerna eftersom den inte finns tillgänglig i regionerna europe-west4 eller us-central1.
Nvidia K80 testades inte eftersom de tillhörande drivrutinerna är för gamla och inte längre stödjer den CUDA-version som används i våra tester.
Försök att köra modellen från Meta Github repository med 16GB VRAM misslyckades på grund av minnesbrist. Samtliga tester utfördes därför med Hugging Face-modellen, där detta problem ej förekom.

Slutsats

Det är fortfarande svårt att få tag på Nvidia A100 GPU-instanser på Google Cloud Platform. Av de tillgängliga alternativen erbjuder Nvidia L4 det överlägset bästa värdet för Llama 3-8B och presterar betydligt bättre än övriga testade GPU:er.

Dela:

Senast uppdaterad 13 april 2026

Redo att få bort det manuella arbetet
ur er verksamhet?

Skapa ett gratis konto på några minuter och se hur Parseur kan förenkla ert arbetsflöde.

Ingen modellträning krävs

Byggt för verkliga arbetsflöden, inte för experiment

Från enkelt gränssnitt till full API-integration

Llama 3 prestanda och kostnadsjämförelser