Viktiga slutsatser:
- Den bästa lösningen för att köra Llama 3-8B på GCP:s virtuella maskiner är Nvidia L4 GPU. Denna kombination ger klart mest värde för pengarna.
- Du behöver minst 16GB VRAM och 16GB RAM för att köra Llama 3-8B smidigt.
Llama 3 prestanda på Google Cloud Platform (GCP) Compute Engine
Parseur extraherar textdata från dokument med hjälp av stora språkmodeller (LLM). Vi undersöker ständigt nya sätt att extrahera data ännu mer exakt och kostnadseffektivt. När Llama 3 lanserades blev vi genast nyfikna på dess prestanda och kostnader. Hur snabb är den? Vad kostar det att köra inferens? Vilken GPU är mest prisvärd för Llama 3?
Alla dessa frågor – och fler – får svar i denna artikel.
Llama 3-8B Benchmark och kostnadsjämförelse
Vi har testat Llama 3-8B på Google Cloud Platforms Compute Engine med flera olika GPU:er. Till testerna användes Hugging Face Llama 3-8B-modellen.
| Maskintyp | vCPU:er | RAM | Nvidia GPU | VRAM | Token/s | $/månad | $/1M tokens† |
|---|---|---|---|---|---|---|---|
| n1 | 8 | 52GB | T4 | 16GB | 0.43 | $482.45 | $431.82 |
| g2 | 4 | 16GB | L4 | 24GB | 12.75 | $579.73 | $17.54 |
| n1 | 8 | 52GB | P100 | 16GB | 1.41 | $1121.20 | $306.78 |
| n1 | 4 | 15GB | V100 | 16GB | 1.30 | $1447.33 | $429.52 |
† Kostnad per 1 000 000 tokens, givet att servern kör dygnet runt under en 30-dagarsperiod, endast med ordinarie månadsrabatt (ingen avbrottsbar "spot"-instans, inga åtagandebaserade priser).
Metodik
- Vi använder standard FP16-versionen av Llama 3 från Hugging Face, så nära "out-of-the-box" som möjligt.
- CPU-baserad inferens fungerar inte direkt och kräver ytterligare modifieringar, vilket inte täcks här.
- Operativsystemet är Debian 11 med kernel 5.10.205-2, anpassad för deep learning-VM:ar på Google Cloud Platform.
- Diskutrymmet är 200GB SSD. På grund av modellens storlek rekommenderas SSD för snabbare laddningstider.
- GCP-region för testerna är europe-west4.
Noteringar
- Meta-Llama-3-8B-modellen kräver 15GB diskutrymme.
- Meta-Llama-3-70B-modellen kräver 132GB diskutrymme, men har ännu inte testats.
- Nvidia A100 ingick inte i testerna eftersom den inte finns tillgänglig i regionerna europe-west4 eller us-central1.
- Nvidia K80 testades inte eftersom de tillhörande drivrutinerna är för gamla och inte längre stödjer den CUDA-version som används i våra tester.
- Försök att köra modellen från Meta Github repository med 16GB VRAM misslyckades på grund av minnesbrist. Samtliga tester utfördes därför med Hugging Face-modellen, där detta problem ej förekom.
Slutsats
Det är fortfarande svårt att få tag på Nvidia A100 GPU-instanser på Google Cloud Platform. Av de tillgängliga alternativen erbjuder Nvidia L4 det överlägset bästa värdet för Llama 3-8B och presterar betydligt bättre än övriga testade GPU:er.
Senast uppdaterad