Benchmarks de Desempenho e Custo do Llama 3

Portrait of Sylvain Josserand
por Sylvain Josserand
3 minutos de leitura
Última atualização em

Principais conclusões:

  • A GPU Nvidia L4, em VMs do GCP, apresenta o melhor custo-benefício para o Llama 3-8B.
  • É necessário uma GPU com pelo menos 16 GB de VRAM e 16 GB de RAM do sistema para executar o Llama 3-8B.

Desempenho do Llama 3 no Google Cloud Platform (GCP) Compute Engine

O Parseur extrai dados de texto de documentos utilizando Grandes Modelos de Linguagem (LLMs). Estamos constantemente explorando novas maneiras de extrair dados com maior precisão e menor custo. Com o lançamento do Llama 3, buscamos analisar seu desempenho e custo. Questões como velocidade, custo e a GPU com melhor custo-benefício para o Llama 3 foram levantadas.

Este artigo responderá a essas e outras perguntas.

Benchmarks e Comparativo de Custos do LLAMA 3-8B

Testamos o Llama 3-8B no Compute Engine do Google Cloud Platform com diferentes GPUs, utilizando o modelo Hugging Face Llama 3-8B.

Tipo de máquina vCPUs RAM GPU Nvidia VRAM Token/s $/mês $/1M tokens†
n1 8 52GB T4 16GB 0.43 $482.45 $431.82
g2 4 16GB L4 24GB 12.75 $579.73 $17.54
n1 8 52GB P100 16GB 1.41 $1121.20 $306.78
n1 4 15GB V100 16GB 1.30 $1447.33 $429.52

† Custo por 1.000.000 de tokens, considerando um servidor operando 24 horas por dia, 7 dias por semana, durante um mês de 30 dias, utilizando apenas o desconto mensal regular (sem instâncias "spot" ou uso comprometido).

Metodologia

  • Utilizamos a versão FP16 padrão do Llama 3 do Hugging Face, próxima à configuração pronta para uso.
  • A inferência baseada em CPU requer modificações fora do escopo deste artigo.
  • O sistema operacional é Debian 11 com kernel 5.10.205-2, fornecido pelo Google Cloud Platform para VMs de aprendizado profundo.
  • O espaço em disco é de 200 GB SSD, recomendado devido ao tamanho do modelo para otimizar o tempo de carregamento.
  • A região do GCP é europe-west4.

Notas

  • O modelo Meta-Llama-3-8B ocupa 15 GB de espaço em disco.
  • O modelo Meta-Llama-3-70B ocupa 132 GB de espaço em disco e ainda não foi testado.
  • A Nvidia A100 não foi testada por não estar disponível nas regiões europe-west4 e us-central1.
  • A Nvidia K80 não foi testada devido à incompatibilidade dos drivers disponíveis com a versão CUDA utilizada nos benchmarks.
  • A execução do modelo do repositório Meta Github com 16 GB de VRAM resultou em erro de falta de memória. Os testes foram realizados com o modelo do Hugging Face, que não apresentou esse problema.

Conclusão

A disponibilidade de instâncias com GPU Nvidia A100 no Google Cloud Platform ainda é limitada. Dentre as GPUs disponíveis, a Nvidia L4 oferece o melhor custo-benefício para o Llama 3-8B, superando as demais.

Última atualização em

Software de extração de dados baseado em IA.
Comece a usar o Parseur hoje mesmo.

Automatize a extração de texto de e-mails, PDFs e planilhas.
Economize centenas de horas de trabalho manual.
Adote a automação do trabalho com IA.

Cadastre-se gratuitamente
Parseur rated 5/5 on Capterra
Parseur.com has the highest adoption on G2
Parseur.com has the happiest users badge on Crozdesk
Parseur rated 5/5 on GetApp
Parseur rated 4.5/5 on Trustpilot