Points clés :
- Le meilleur rapport qualité-prix pour Llama 3-8B sur les instances de calcul de GCP est le GPU Nvidia L4.
- Vous avez besoin d'un GPU avec au moins 16 Go de VRAM et 16 Go de RAM système pour exécuter Llama 3-8B.
Performances de Llama 3 sur Google Cloud Platform (GCP)
Parseur extrait des données textuelles de documents en utilisant des modèles de langage de grande taille (LLM). Nous explorons constamment de nouvelles façons d'extraire des données de manière plus précise et moins coûteuse. Dès la sortie de Llama 3, nous étions curieux de tester ses performances et son coût. Plusieurs questions se posaient : Quelle est sa vitesse ? Combien coûte-t-il ? Quel GPU offre le meilleur rapport qualité-prix pour Llama 3 ?
Cet article répondra à toutes ces questions et bien plus encore.
Benchmarks de Llama 3-8B et comparaison des coûts
Nous avons testé Llama 3-8B sur les instances de calcul de Google Cloud Platform avec différents GPU. Nous avons utilisé le modèle Hugging Face Llama 3-8B pour nos tests.
Type de machine | vCPU | RAM | GPU Nvidia | VRAM | Jetons/s | $/mois | $/1M de jetons† |
---|---|---|---|---|---|---|---|
n1 | 8 | 52 Go | T4 | 16 Go | 0,43 | 482,45 $ | 431,82 $ |
g2 | 4 | 16 Go | L4 | 24 Go | 12,75 | 579,73 $ | 17,54 $ |
n1 | 8 | 52 Go | P100 | 16 Go | 1,41 | 1 121,20 $ | 306,78 $ |
n1 | 4 | 15 Go | V100 | 16 Go | 1,30 | 1 447,33 $ | 429,52 $ |
† Coût par million de jetons, en supposant qu'un serveur fonctionne 24h/24 et 7j/7 pendant un mois entier de 30 jours, en utilisant uniquement la remise mensuelle régulière (pas d'instance "spot" interruptible, pas d'utilisation engagée).
Méthodologie
- Nous utilisons la version FP16 standard de Llama 3 de Hugging Face, aussi proche que possible de la version prête à l'emploi.
- L'inférence basée sur le CPU ne fonctionne pas d'emblée et nécessite des modifications qui ne sont pas abordées dans cet article.
- Le système d'exploitation est Debian 11 avec le noyau 5.10.205-2, fourni par Google Cloud Platform pour les VM de deep learning.
- L'espace disque est de 200 Go SSD. Étant donné la grande taille du modèle, il est recommandé d'utiliser un SSD pour accélérer les temps de chargement.
- La région GCP est europe-west4.
Remarques
- Le modèle Meta-Llama-3-8B occupe 15 Go d'espace disque.
- Le modèle Meta-Llama-3-70B occupe 132 Go d'espace disque. Il n'a pas encore été testé.
- Le GPU Nvidia A100 n'a pas été testé car il n'est pas disponible dans les régions europe-west4 et us-central1.
- Le GPU Nvidia K80 n'a pas été testé car les pilotes disponibles sont trop anciens et ne sont plus compatibles avec la version CUDA que nous utilisons dans nos benchmarks.
- La tentative d'exécution du modèle à partir du dépôt GitHub de Meta avec 16 Go de VRAM a échoué avec une erreur de mémoire insuffisante. Tous les tests ont été effectués avec le modèle de Hugging Face, qui n'a pas rencontré ce problème.
Conclusion
Il semble qu'il y ait encore un manque de disponibilité pour les instances de GPU Nvidia A100 sur Google Cloud Platform. Parmi les GPU disponibles, le Nvidia L4 offre le meilleur rapport qualité-prix pour Llama 3-8B, surpassant clairement les autres GPU.
Dernière mise à jour le