주요 요약:
- GCP VM에서 Llama 3-8B를 실행하기에 가장 적합한 GPU는 Nvidia L4로, 최고의 가성비를 자랑합니다.
- Llama 3-8B를 원활히 구동하려면 최소 16GB VRAM과 16GB 시스템 RAM이 필요합니다.
Google Cloud Platform(GCP) Compute Engine에서 Llama 3 성능 분석
Parseur는 대형 언어 모델(LLM)을 활용하여 문서에서 텍스트 데이터를 추출합니다. 더 정확하고 경제적으로 데이터를 추출할 수 있는 방법을 지속적으로 연구 중입니다. Llama 3가 공개되자마자, 저희는 성능과 비용에서 어떤 결과를 보일지 빠르게 테스트하고 싶었습니다. Llama 3가 얼마나 빠를지, 비용 부담은 어떨지, 그리고 가장 합리적인 GPU 선택은 무엇인지 궁금하셨다면, 이 글에서 그 답을 모두 얻으실 수 있습니다.
Llama 3-8B 벤치마크 및 비용 비교
Google Cloud Platform Compute Engine에서 여러 GPU로 Llama 3-8B를 실제 테스트했습니다. 벤치마크에는 Hugging Face Llama 3-8B 모델을 사용했습니다.
머신 타입 | vCPU | RAM | Nvidia GPU | VRAM | 토큰/초 | 월별 비용 | 100만 토큰당 비용† |
---|---|---|---|---|---|---|---|
n1 | 8 | 52GB | T4 | 16GB | 0.43 | $482.45 | $431.82 |
g2 | 4 | 16GB | L4 | 24GB | 12.75 | $579.73 | $17.54 |
n1 | 8 | 52GB | P100 | 16GB | 1.41 | $1121.20 | $306.78 |
n1 | 4 | 15GB | V100 | 16GB | 1.30 | $1447.33 | $429.52 |
† 30일 기준, 24/7 상시 운영 시 100만 토큰 처리 기준 비용입니다. 인터럽터블 "spot" 인스턴스나 장기 약정이 아닌, 월별 할인만 적용한 기준입니다.
벤치마킹 방법
- Hugging Face에서 제공하는 표준 FP16 Llama 3 모델을 거의 수정 없이 사용했습니다.
- CPU 기반 추론은 바로 지원되지 않아 추가 작업이 필요하며, 본 글에서는 다루지 않습니다.
- 운영체제는 Google Cloud Platform 딥러닝 VM의 Debian 11(커널 5.10.205-2) 버전을 사용했습니다.
- 200GB SSD를 기본 디스크로 할당(대형 모델의 로딩을 빠르게 하기 위함)했습니다.
- GCP 리전은 europe-west4입니다.
참고 사항
- Meta-Llama-3-8B 모델은 디스크 공간 15GB를 필요로 합니다.
- Meta-Llama-3-70B 모델은 132GB 디스크 공간이 필요하며, 이번 글에서는 테스트하지 않았습니다.
- Nvidia A100은 europe-west4 및 us-central1 리전에선 현재 제공되지 않아 테스트에 포함하지 못했습니다.
- Nvidia K80은 최신 CUDA와 드라이버 호환성 문제로 테스트하지 못했습니다.
- Meta Github 저장소 기준 16GB VRAM에서는 Llama 3 실행이 메모리 부족으로 실패했지만, 본 평가에서는 문제가 없는 Hugging Face 모델을 사용했습니다.
결론
Google Cloud Platform에서 Nvidia A100 GPU 인스턴스는 수급이 어려운 상황입니다. 현재 사용 가능한 GPU 중에서는 Nvidia L4가 Llama 3-8B를 실행하기에 성능과 비용 면에서 압도적으로 가장 뛰어납니다.
마지막 업데이트