Llama 3 성능 및 비용 벤치마크

주요 요약:

  • GCP VM에서 Llama 3-8B를 실행하기에 가장 적합한 GPU는 Nvidia L4로, 최고의 가성비를 자랑합니다.
  • Llama 3-8B를 원활히 구동하려면 최소 16GB VRAM과 16GB 시스템 RAM이 필요합니다.

Google Cloud Platform(GCP) Compute Engine에서 Llama 3 성능 분석

Parseur는 대형 언어 모델(LLM)을 활용하여 문서에서 텍스트 데이터를 추출합니다. 더 정확하고 경제적으로 데이터를 추출할 수 있는 방법을 지속적으로 연구 중입니다. Llama 3가 공개되자마자, 저희는 성능과 비용에서 어떤 결과를 보일지 빠르게 테스트하고 싶었습니다. Llama 3가 얼마나 빠를지, 비용 부담은 어떨지, 그리고 가장 합리적인 GPU 선택은 무엇인지 궁금하셨다면, 이 글에서 그 답을 모두 얻으실 수 있습니다.

Llama 3-8B 벤치마크 및 비용 비교

Google Cloud Platform Compute Engine에서 여러 GPU로 Llama 3-8B를 실제 테스트했습니다. 벤치마크에는 Hugging Face Llama 3-8B 모델을 사용했습니다.

머신 타입 vCPU RAM Nvidia GPU VRAM 토큰/초 월별 비용 100만 토큰당 비용†
n1 8 52GB T4 16GB 0.43 $482.45 $431.82
g2 4 16GB L4 24GB 12.75 $579.73 $17.54
n1 8 52GB P100 16GB 1.41 $1121.20 $306.78
n1 4 15GB V100 16GB 1.30 $1447.33 $429.52

† 30일 기준, 24/7 상시 운영 시 100만 토큰 처리 기준 비용입니다. 인터럽터블 "spot" 인스턴스나 장기 약정이 아닌, 월별 할인만 적용한 기준입니다.

벤치마킹 방법

  • Hugging Face에서 제공하는 표준 FP16 Llama 3 모델을 거의 수정 없이 사용했습니다.
  • CPU 기반 추론은 바로 지원되지 않아 추가 작업이 필요하며, 본 글에서는 다루지 않습니다.
  • 운영체제는 Google Cloud Platform 딥러닝 VM의 Debian 11(커널 5.10.205-2) 버전을 사용했습니다.
  • 200GB SSD를 기본 디스크로 할당(대형 모델의 로딩을 빠르게 하기 위함)했습니다.
  • GCP 리전은 europe-west4입니다.

참고 사항

  • Meta-Llama-3-8B 모델은 디스크 공간 15GB를 필요로 합니다.
  • Meta-Llama-3-70B 모델은 132GB 디스크 공간이 필요하며, 이번 글에서는 테스트하지 않았습니다.
  • Nvidia A100은 europe-west4 및 us-central1 리전에선 현재 제공되지 않아 테스트에 포함하지 못했습니다.
  • Nvidia K80은 최신 CUDA와 드라이버 호환성 문제로 테스트하지 못했습니다.
  • Meta Github 저장소 기준 16GB VRAM에서는 Llama 3 실행이 메모리 부족으로 실패했지만, 본 평가에서는 문제가 없는 Hugging Face 모델을 사용했습니다.

결론

Google Cloud Platform에서 Nvidia A100 GPU 인스턴스는 수급이 어려운 상황입니다. 현재 사용 가능한 GPU 중에서는 Nvidia L4가 Llama 3-8B를 실행하기에 성능과 비용 면에서 압도적으로 가장 뛰어납니다.

마지막 업데이트

시작하기

문서 수작업,
지금 끝내세요.

무료로 시작하고, Parseur가 귀사의 업무에 어떻게 적용되는지 직접 확인하세요.

별도의 모델 훈련 불필요
실제 워크플로우에 맞춘 설계
포인트 클릭에서 API까지 확장 가능