Puntos clave:
- La GPU Nvidia L4 en las VM de GCP ofrece el punto óptimo para Llama 3-8B en términos de relación calidad-precio.
- Se requiere una GPU con al menos 16 GB de VRAM y 16 GB de RAM del sistema para ejecutar Llama 3-8B.
Rendimiento de Llama 3 en Google Cloud Platform (GCP) Compute Engine
En Parseur, extraemos datos de texto de documentos utilizando modelos lingüísticos grandes (LLM). Constantemente exploramos nuevas formas de mejorar la precisión y eficiencia de la extracción de datos. El lanzamiento de Llama 3 despertó nuestra curiosidad sobre su rendimiento y costo. Nos preguntábamos: ¿Qué tan rápido es? ¿Cuánto cuesta? ¿Qué GPU ofrece la mejor relación calidad-precio para Llama 3?
Este artículo busca responder a estas preguntas y proporcionar información sobre el rendimiento de Llama 3.
Benchmarks de Llama 3-8B con comparación de costos
Hemos probado Llama 3-8B en Google Cloud Platform Compute Engine utilizando diferentes GPU. Para las pruebas, utilizamos el modelo Hugging Face Llama 3-8B.
Tipo de máquina | vCPU | RAM | GPU Nvidia | VRAM | Token/s | $/mes | $/1M de tokens† |
---|---|---|---|---|---|---|---|
n1 | 8 | 52GB | T4 | 16GB | 0.43 | $482.45 | $431.82 |
g2 | 4 | 16GB | L4 | 24GB | 12.75 | $579.73 | $17.54 |
n1 | 8 | 52GB | P100 | 16GB | 1.41 | $1121.20 | $306.78 |
n1 | 4 | 15GB | V100 | 16GB | 1.30 | $1447.33 | $429.52 |
† Costo por 1,000,000 de tokens, asumiendo un servidor operando 24/7 durante un mes completo de 30 días, usando solo el descuento mensual regular (sin instancia "spot" interrumpible, sin uso comprometido).
Metodología
- Utilizamos la versión estándar FP16 de Llama 3 de Hugging Face, lo más cerca posible de la configuración lista para usar.
- La inferencia basada en CPU no funciona de manera inmediata y requiere modificaciones que no se incluyen en este análisis.
- El sistema operativo utilizado es Debian 11 con el kernel 5.10.205-2, proporcionado por Google Cloud Platform para máquinas virtuales de aprendizaje profundo.
- Se utiliza un espacio en disco SSD de 200 GB. Dada la envergadura del modelo, se recomienda utilizar SSD para acelerar los tiempos de carga.
- La región de GCP utilizada es europe-west4.
Notas
- El modelo Meta-Llama-3-8B ocupa 15 GB de espacio en disco.
- El modelo Meta-Llama-3-70B ocupa 132 GB de espacio en disco. Este modelo aún no se ha probado.
- La GPU Nvidia A100 no se probó debido a su falta de disponibilidad en las regiones europe-west4 y us-central1.
- La GPU Nvidia K80 no se probó porque los controladores disponibles son obsoletos y no son compatibles con la versión de CUDA utilizada en nuestras pruebas.
- Se produjo un error de memoria insuficiente al intentar ejecutar el modelo desde el repositorio de Meta Github con 16 GB de VRAM. Todas las pruebas se realizaron con el modelo de Hugging Face, que no presentó este problema.
Conclusión
La disponibilidad de instancias de GPU Nvidia A100 en Google Cloud Platform parece ser limitada. De las GPU disponibles, la Nvidia L4 ofrece el mejor rendimiento para Llama 3-8B en relación con su costo, superando significativamente a las demás GPU.
Última actualización el