Google Cloud Platform(GCP) Compute Engine에서 Llama 3 성능 분석

Parseur는 대형 언어 모델(LLM)을 활용하여 문서에서 텍스트 데이터를 추출합니다. 더 정확하고 경제적으로 데이터를 추출할 수 있는 방법을 지속적으로 연구 중입니다. Llama 3가 공개되자마자, 저희는 성능과 비용에서 어떤 결과를 보일지 빠르게 테스트하고 싶었습니다. Llama 3가 얼마나 빠를지, 비용 부담은 어떨지, 그리고 가장 합리적인 GPU 선택은 무엇인지 궁금하셨다면, 이 글에서 그 답을 모두 얻으실 수 있습니다.

Llama 3-8B 벤치마크 및 비용 비교

Google Cloud Platform Compute Engine에서 여러 GPU로 Llama 3-8B를 실제 테스트했습니다. 벤치마크에는 Hugging Face Llama 3-8B 모델을 사용했습니다.

머신 타입	vCPU	RAM	Nvidia GPU	VRAM	토큰/초	월별 비용	100만 토큰당 비용†
n1	8	52GB	T4	16GB	0.43	$482.45	$431.82
g2	4	16GB	L4	24GB	12.75	$579.73	$17.54
n1	8	52GB	P100	16GB	1.41	$1121.20	$306.78
n1	4	15GB	V100	16GB	1.30	$1447.33	$429.52

† 30일 기준, 24/7 상시 운영 시 100만 토큰 처리 기준 비용입니다. 인터럽터블 "spot" 인스턴스나 장기 약정이 아닌, 월별 할인만 적용한 기준입니다.

벤치마킹 방법

Hugging Face에서 제공하는 표준 FP16 Llama 3 모델을 거의 수정 없이 사용했습니다.
CPU 기반 추론은 바로 지원되지 않아 추가 작업이 필요하며, 본 글에서는 다루지 않습니다.
운영체제는 Google Cloud Platform 딥러닝 VM의 Debian 11(커널 5.10.205-2) 버전을 사용했습니다.
200GB SSD를 기본 디스크로 할당(대형 모델의 로딩을 빠르게 하기 위함)했습니다.
GCP 리전은 europe-west4입니다.

참고 사항

Meta-Llama-3-8B 모델은 디스크 공간 15GB를 필요로 합니다.
Meta-Llama-3-70B 모델은 132GB 디스크 공간이 필요하며, 이번 글에서는 테스트하지 않았습니다.
Nvidia A100은 europe-west4 및 us-central1 리전에선 현재 제공되지 않아 테스트에 포함하지 못했습니다.
Nvidia K80은 최신 CUDA와 드라이버 호환성 문제로 테스트하지 못했습니다.
Meta Github 저장소 기준 16GB VRAM에서는 Llama 3 실행이 메모리 부족으로 실패했지만, 본 평가에서는 문제가 없는 Hugging Face 모델을 사용했습니다.

결론

Google Cloud Platform에서 Nvidia A100 GPU 인스턴스는 수급이 어려운 상황입니다. 현재 사용 가능한 GPU 중에서는 Nvidia L4가 Llama 3-8B를 실행하기에 성능과 비용 면에서 압도적으로 가장 뛰어납니다.

마지막 업데이트 2025년 8월 28일

문서 수작업,
오늘 끝내세요.

무료로 시작해, Parseur가 실제 업무에 어떻게 맞아 들어가는지 직접 확인해 보세요.

모델 학습 필요 없음

실제 업무 흐름에 맞춘 설계

클릭 몇 번으로 시작, API로 확장

Llama 3 성능 및 비용 벤치마크

Google Cloud Platform(GCP) Compute Engine에서 Llama 3 성능 분석

Llama 3-8B 벤치마크 및 비용 비교

벤치마킹 방법

참고 사항

결론

문서 수작업,오늘 끝내세요.

문서 수작업,
오늘 끝내세요.