Najważniejsze wnioski:
- Najlepszym wyborem dla Llama 3-8B na maszynach wirtualnych GCP jest karta graficzna Nvidia L4 – zapewnia ona najlepszy stosunek wydajności do kosztów.
- Do uruchomienia Llama 3-8B potrzebujesz GPU z minimum 16 GB VRAM oraz 16 GB pamięci RAM.
Wydajność Llama 3 na Google Cloud Platform (GCP) Compute Engine
Parseur wyodrębnia dane tekstowe z dokumentów, korzystając z dużych modeli językowych (LLM). Stale szukamy nowych sposobów na wydajniejsze i tańsze wyodrębnianie danych z dokumentów. Po premierze Llama 3 od razu chcieliśmy sprawdzić, jak sprawuje się w praktyce i jakie generuje koszty.
Nasze kluczowe pytania brzmiały: Jak szybka jest ta technologia? Ile kosztuje jej uruchomienie? Która karta graficzna zapewnia najlepszy stosunek wydajności do ceny dla Llama 3?
Na wszystkie te pytania odpowiadamy w tym artykule.
Benchmarki Llama 3-8B z analizą kosztów
Przetestowaliśmy Llama 3-8B na Compute Engine Google Cloud Platform, wykorzystując różne karty graficzne. Do testów użyliśmy modelu Hugging Face Llama 3-8B.
| Typ maszyny | vCPU | RAM | Nvidia GPU | VRAM | Tokeny/s | $/miesiąc | $/1M tokenów† |
|---|---|---|---|---|---|---|---|
| n1 | 8 | 52GB | T4 | 16GB | 0,43 | $482,45 | $431,82 |
| g2 | 4 | 16GB | L4 | 24GB | 12,75 | $579,73 | $17,54 |
| n1 | 8 | 52GB | P100 | 16GB | 1,41 | $1121,20 | $306,78 |
| n1 | 4 | 15GB | V100 | 16GB | 1,30 | $1447,33 | $429,52 |
† Koszt za 1 000 000 tokenów, zakładając, że serwer działa 24/7 przez 30 dni w miesiącu oraz standardową miesięczną zniżkę (bez instancji "spot" i bez zobowiązań czasowych).
Metodologia
- Korzystaliśmy ze standardowej wersji FP16 Llama 3 dostępnej na Hugging Face w praktycznie domyślnej konfiguracji.
- Inference na CPU wymaga dodatkowych modyfikacji i nie był przedmiotem tego wpisu.
- System operacyjny: Debian 11, kernel 5.10.205-2 – oficjalny obraz GCP dla maszyn deep learning.
- Dysk: 200GB SSD. Ze względu na rozmiar modelu rekomendowane jest użycie SSD, by znacząco skrócić czas ładowania.
- Lokalizacja GCP: europe-west4.
Uwagi
- Model Meta-Llama-3-8B zajmuje 15 GB miejsca na dysku.
- Model Meta-Llama-3-70B zajmuje 132 GB na dysku i nie został jeszcze przetestowany.
- Nvidia A100 nie została użyta w testach, gdyż nie jest dostępna w regionie europe-west4 ani us-central1.
- Nvidia K80 pominięto, ponieważ dostępne sterowniki są zbyt stare i nieobsługiwane przez używaną przez nas wersję CUDA wymaganą do benchmarków.
- Próbując uruchomić model z repozytorium Meta na Githubie na GPU z 16 GB VRAM, napotkaliśmy błąd braku pamięci. Wszystkie benchmarki przeprowadzono na modelu z Hugging Face, gdzie ten problem nie wystąpił.
Wnioski
Zdecydowanie nadal brakuje dostępności instancji z GPU Nvidia A100 na Google Cloud Platform. Spośród wszystkich testowanych GPU, Nvidia L4 oferuje najwyższą wydajność w przeliczeniu na koszt dla Llama 3-8B i znacząco przewyższa pozostałe opcje.
Ostatnia aktualizacja



