Principais conclusões:
- A GPU Nvidia L4, em VMs do GCP, apresenta o melhor custo-benefício para o Llama 3-8B.
- É necessário uma GPU com pelo menos 16 GB de VRAM e 16 GB de RAM do sistema para executar o Llama 3-8B.
Desempenho do Llama 3 no Google Cloud Platform (GCP) Compute Engine
O Parseur extrai dados de texto de documentos utilizando Grandes Modelos de Linguagem (LLMs). Estamos constantemente explorando novas maneiras de extrair dados com maior precisão e menor custo. Com o lançamento do Llama 3, buscamos analisar seu desempenho e custo. Questões como velocidade, custo e a GPU com melhor custo-benefício para o Llama 3 foram levantadas.
Este artigo responderá a essas e outras perguntas.
Benchmarks e Comparativo de Custos do LLAMA 3-8B
Testamos o Llama 3-8B no Compute Engine do Google Cloud Platform com diferentes GPUs, utilizando o modelo Hugging Face Llama 3-8B.
Tipo de máquina | vCPUs | RAM | GPU Nvidia | VRAM | Token/s | $/mês | $/1M tokens† |
---|---|---|---|---|---|---|---|
n1 | 8 | 52GB | T4 | 16GB | 0.43 | $482.45 | $431.82 |
g2 | 4 | 16GB | L4 | 24GB | 12.75 | $579.73 | $17.54 |
n1 | 8 | 52GB | P100 | 16GB | 1.41 | $1121.20 | $306.78 |
n1 | 4 | 15GB | V100 | 16GB | 1.30 | $1447.33 | $429.52 |
† Custo por 1.000.000 de tokens, considerando um servidor operando 24 horas por dia, 7 dias por semana, durante um mês de 30 dias, utilizando apenas o desconto mensal regular (sem instâncias "spot" ou uso comprometido).
Metodologia
- Utilizamos a versão FP16 padrão do Llama 3 do Hugging Face, próxima à configuração pronta para uso.
- A inferência baseada em CPU requer modificações fora do escopo deste artigo.
- O sistema operacional é Debian 11 com kernel 5.10.205-2, fornecido pelo Google Cloud Platform para VMs de aprendizado profundo.
- O espaço em disco é de 200 GB SSD, recomendado devido ao tamanho do modelo para otimizar o tempo de carregamento.
- A região do GCP é europe-west4.
Notas
- O modelo Meta-Llama-3-8B ocupa 15 GB de espaço em disco.
- O modelo Meta-Llama-3-70B ocupa 132 GB de espaço em disco e ainda não foi testado.
- A Nvidia A100 não foi testada por não estar disponível nas regiões europe-west4 e us-central1.
- A Nvidia K80 não foi testada devido à incompatibilidade dos drivers disponíveis com a versão CUDA utilizada nos benchmarks.
- A execução do modelo do repositório Meta Github com 16 GB de VRAM resultou em erro de falta de memória. Os testes foram realizados com o modelo do Hugging Face, que não apresentou esse problema.
Conclusão
A disponibilidade de instâncias com GPU Nvidia A100 no Google Cloud Platform ainda é limitada. Dentre as GPUs disponíveis, a Nvidia L4 oferece o melhor custo-benefício para o Llama 3-8B, superando as demais.
Última atualização em