Benchmarki wydajności i kosztów Llama 3

Najważniejsze wnioski:

  • Najlepszym wyborem dla Llama 3-8B na maszynach wirtualnych GCP jest karta graficzna Nvidia L4 – zapewnia ona najlepszy stosunek wydajności do kosztów.
  • Do uruchomienia Llama 3-8B potrzebujesz GPU z minimum 16 GB VRAM oraz 16 GB pamięci RAM.

Wydajność Llama 3 na Google Cloud Platform (GCP) Compute Engine

Parseur wyodrębnia dane tekstowe z dokumentów, korzystając z dużych modeli językowych (LLM). Stale szukamy nowych sposobów na wydajniejsze i tańsze wyodrębnianie danych z dokumentów. Po premierze Llama 3 od razu chcieliśmy sprawdzić, jak sprawuje się w praktyce i jakie generuje koszty.

Nasze kluczowe pytania brzmiały: Jak szybka jest ta technologia? Ile kosztuje jej uruchomienie? Która karta graficzna zapewnia najlepszy stosunek wydajności do ceny dla Llama 3?

Na wszystkie te pytania odpowiadamy w tym artykule.

Benchmarki Llama 3-8B z analizą kosztów

Przetestowaliśmy Llama 3-8B na Compute Engine Google Cloud Platform, wykorzystując różne karty graficzne. Do testów użyliśmy modelu Hugging Face Llama 3-8B.

Typ maszyny vCPU RAM Nvidia GPU VRAM Tokeny/s $/miesiąc $/1M tokenów†
n1 8 52GB T4 16GB 0,43 $482,45 $431,82
g2 4 16GB L4 24GB 12,75 $579,73 $17,54
n1 8 52GB P100 16GB 1,41 $1121,20 $306,78
n1 4 15GB V100 16GB 1,30 $1447,33 $429,52

† Koszt za 1 000 000 tokenów, zakładając, że serwer działa 24/7 przez 30 dni w miesiącu oraz standardową miesięczną zniżkę (bez instancji "spot" i bez zobowiązań czasowych).

Metodologia

  • Korzystaliśmy ze standardowej wersji FP16 Llama 3 dostępnej na Hugging Face w praktycznie domyślnej konfiguracji.
  • Inference na CPU wymaga dodatkowych modyfikacji i nie był przedmiotem tego wpisu.
  • System operacyjny: Debian 11, kernel 5.10.205-2 – oficjalny obraz GCP dla maszyn deep learning.
  • Dysk: 200GB SSD. Ze względu na rozmiar modelu rekomendowane jest użycie SSD, by znacząco skrócić czas ładowania.
  • Lokalizacja GCP: europe-west4.

Uwagi

  • Model Meta-Llama-3-8B zajmuje 15 GB miejsca na dysku.
  • Model Meta-Llama-3-70B zajmuje 132 GB na dysku i nie został jeszcze przetestowany.
  • Nvidia A100 nie została użyta w testach, gdyż nie jest dostępna w regionie europe-west4 ani us-central1.
  • Nvidia K80 pominięto, ponieważ dostępne sterowniki są zbyt stare i nieobsługiwane przez używaną przez nas wersję CUDA wymaganą do benchmarków.
  • Próbując uruchomić model z repozytorium Meta na Githubie na GPU z 16 GB VRAM, napotkaliśmy błąd braku pamięci. Wszystkie benchmarki przeprowadzono na modelu z Hugging Face, gdzie ten problem nie wystąpił.

Wnioski

Zdecydowanie nadal brakuje dostępności instancji z GPU Nvidia A100 na Google Cloud Platform. Spośród wszystkich testowanych GPU, Nvidia L4 oferuje najwyższą wydajność w przeliczeniu na koszt dla Llama 3-8B i znacząco przewyższa pozostałe opcje.

Ostatnia aktualizacja

Oprogramowanie do ekstrakcji danych opartych na AI.
Zacznij korzystać z Parseur już dziś.

Automatyzuj wyodrębnianie tekstu z e-maili, PDF-ów i arkuszy kalkulacyjnych.
Oszczędzaj setki godzin ręcznej pracy.
Postaw na automatyzację pracy z AI.

Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot