Puntos clave:

La GPU Nvidia L4 en las VM de GCP ofrece el punto óptimo para Llama 3-8B en términos de relación calidad-precio.
Se requiere una GPU con al menos 16 GB de VRAM y 16 GB de RAM del sistema para ejecutar Llama 3-8B.

Rendimiento de Llama 3 en Google Cloud Platform (GCP) Compute Engine

En Parseur, extraemos datos de texto de documentos utilizando modelos lingüísticos grandes (LLM). Constantemente exploramos nuevas formas de mejorar la precisión y eficiencia de la extracción de datos. El lanzamiento de Llama 3 despertó nuestra curiosidad sobre su rendimiento y costo. Nos preguntábamos: ¿Qué tan rápido es? ¿Cuánto cuesta? ¿Qué GPU ofrece la mejor relación calidad-precio para Llama 3?

Este artículo busca responder a estas preguntas y proporcionar información sobre el rendimiento de Llama 3.

Benchmarks de Llama 3-8B con comparación de costos

Hemos probado Llama 3-8B en Google Cloud Platform Compute Engine utilizando diferentes GPU. Para las pruebas, utilizamos el modelo Hugging Face Llama 3-8B.

Tipo de máquina	vCPU	RAM	GPU Nvidia	VRAM	Token/s	$/mes	$/1M de tokens†
n1	8	52GB	T4	16GB	0.43	$482.45	$431.82
g2	4	16GB	L4	24GB	12.75	$579.73	$17.54
n1	8	52GB	P100	16GB	1.41	$1121.20	$306.78
n1	4	15GB	V100	16GB	1.30	$1447.33	$429.52

† Costo por 1,000,000 de tokens, asumiendo un servidor operando 24/7 durante un mes completo de 30 días, usando solo el descuento mensual regular (sin instancia "spot" interrumpible, sin uso comprometido).

Metodología

Utilizamos la versión estándar FP16 de Llama 3 de Hugging Face, lo más cerca posible de la configuración lista para usar.
La inferencia basada en CPU no funciona de manera inmediata y requiere modificaciones que no se incluyen en este análisis.
El sistema operativo utilizado es Debian 11 con el kernel 5.10.205-2, proporcionado por Google Cloud Platform para máquinas virtuales de aprendizaje profundo.
Se utiliza un espacio en disco SSD de 200 GB. Dada la envergadura del modelo, se recomienda utilizar SSD para acelerar los tiempos de carga.
La región de GCP utilizada es europe-west4.

Notas

El modelo Meta-Llama-3-8B ocupa 15 GB de espacio en disco.
El modelo Meta-Llama-3-70B ocupa 132 GB de espacio en disco. Este modelo aún no se ha probado.
La GPU Nvidia A100 no se probó debido a su falta de disponibilidad en las regiones europe-west4 y us-central1.
La GPU Nvidia K80 no se probó porque los controladores disponibles son obsoletos y no son compatibles con la versión de CUDA utilizada en nuestras pruebas.
Se produjo un error de memoria insuficiente al intentar ejecutar el modelo desde el repositorio de Meta Github con 16 GB de VRAM. Todas las pruebas se realizaron con el modelo de Hugging Face, que no presentó este problema.

Conclusión

La disponibilidad de instancias de GPU Nvidia A100 en Google Cloud Platform parece ser limitada. De las GPU disponibles, la Nvidia L4 ofrece el mejor rendimiento para Llama 3-8B en relación con su costo, superando significativamente a las demás GPU.

Última actualización el 23 de julio de 2024

Rendimiento y costo de Llama 3: benchmarks y comparaciones

Rendimiento de Llama 3 en Google Cloud Platform (GCP) Compute Engine

Benchmarks de Llama 3-8B con comparación de costos

Metodología

Notas

Conclusión

Software de extracción de datos por IA.
Comienza a usar Parseur hoy.

Rendimiento y costo de Llama 3: benchmarks y comparaciones

Rendimiento de Llama 3 en Google Cloud Platform (GCP) Compute Engine

Benchmarks de Llama 3-8B con comparación de costos

Metodología

Notas

Conclusión

Software de extracción de datos por IA. Comienza a usar Parseur hoy.

Software de extracción de datos por IA.
Comienza a usar Parseur hoy.