Rendimiento y costo de Llama 3: benchmarks y comparaciones

Portrait of Sylvain Josserand
por Sylvain Josserand
3 minutos de lectura
Última actualización el

Puntos clave:

  • La GPU Nvidia L4 en las VM de GCP ofrece el punto óptimo para Llama 3-8B en términos de relación calidad-precio.
  • Se requiere una GPU con al menos 16 GB de VRAM y 16 GB de RAM del sistema para ejecutar Llama 3-8B.

Rendimiento de Llama 3 en Google Cloud Platform (GCP) Compute Engine

En Parseur, extraemos datos de texto de documentos utilizando modelos lingüísticos grandes (LLM). Constantemente exploramos nuevas formas de mejorar la precisión y eficiencia de la extracción de datos. El lanzamiento de Llama 3 despertó nuestra curiosidad sobre su rendimiento y costo. Nos preguntábamos: ¿Qué tan rápido es? ¿Cuánto cuesta? ¿Qué GPU ofrece la mejor relación calidad-precio para Llama 3?

Este artículo busca responder a estas preguntas y proporcionar información sobre el rendimiento de Llama 3.

Benchmarks de Llama 3-8B con comparación de costos

Hemos probado Llama 3-8B en Google Cloud Platform Compute Engine utilizando diferentes GPU. Para las pruebas, utilizamos el modelo Hugging Face Llama 3-8B.

Tipo de máquina vCPU RAM GPU Nvidia VRAM Token/s $/mes $/1M de tokens†
n1 8 52GB T4 16GB 0.43 $482.45 $431.82
g2 4 16GB L4 24GB 12.75 $579.73 $17.54
n1 8 52GB P100 16GB 1.41 $1121.20 $306.78
n1 4 15GB V100 16GB 1.30 $1447.33 $429.52

† Costo por 1,000,000 de tokens, asumiendo un servidor operando 24/7 durante un mes completo de 30 días, usando solo el descuento mensual regular (sin instancia "spot" interrumpible, sin uso comprometido).

Metodología

  • Utilizamos la versión estándar FP16 de Llama 3 de Hugging Face, lo más cerca posible de la configuración lista para usar.
  • La inferencia basada en CPU no funciona de manera inmediata y requiere modificaciones que no se incluyen en este análisis.
  • El sistema operativo utilizado es Debian 11 con el kernel 5.10.205-2, proporcionado por Google Cloud Platform para máquinas virtuales de aprendizaje profundo.
  • Se utiliza un espacio en disco SSD de 200 GB. Dada la envergadura del modelo, se recomienda utilizar SSD para acelerar los tiempos de carga.
  • La región de GCP utilizada es europe-west4.

Notas

  • El modelo Meta-Llama-3-8B ocupa 15 GB de espacio en disco.
  • El modelo Meta-Llama-3-70B ocupa 132 GB de espacio en disco. Este modelo aún no se ha probado.
  • La GPU Nvidia A100 no se probó debido a su falta de disponibilidad en las regiones europe-west4 y us-central1.
  • La GPU Nvidia K80 no se probó porque los controladores disponibles son obsoletos y no son compatibles con la versión de CUDA utilizada en nuestras pruebas.
  • Se produjo un error de memoria insuficiente al intentar ejecutar el modelo desde el repositorio de Meta Github con 16 GB de VRAM. Todas las pruebas se realizaron con el modelo de Hugging Face, que no presentó este problema.

Conclusión

La disponibilidad de instancias de GPU Nvidia A100 en Google Cloud Platform parece ser limitada. De las GPU disponibles, la Nvidia L4 ofrece el mejor rendimiento para Llama 3-8B en relación con su costo, superando significativamente a las demás GPU.

Última actualización el

Software de extracción de datos por IA.
Comienza a usar Parseur hoy.

Automatiza la extracción de texto de correos electrónicos, archivos PDF y hojas de cálculo.
Ahorra cientos de horas de trabajo manual.
Adopta la automatización del trabajo con IA.

Abre una cuenta gratis
Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot