Google Cloud Platform(GCP) Compute Engine에서 Llama 3 성능 분석

Parseur는 대형 언어 모델(LLM)을 활용하여 문서에서 텍스트 데이터를 추출합니다. 더 정확하고 경제적으로 데이터를 추출할 수 있는 방법을 지속적으로 연구 중입니다. Llama 3가 공개되자마자, 저희는 성능과 비용에서 어떤 결과를 보일지 빠르게 테스트하고 싶었습니다. Llama 3가 얼마나 빠를지, 비용 부담은 어떨지, 그리고 가장 합리적인 GPU 선택은 무엇인지 궁금하셨다면, 이 글에서 그 답을 모두 얻으실 수 있습니다.

Llama 3-8B 벤치마크 및 비용 비교

Google Cloud Platform Compute Engine에서 여러 GPU로 Llama 3-8B를 실제 테스트했습니다. 벤치마크에는 Hugging Face Llama 3-8B 모델을 사용했습니다.

머신 타입	vCPU	RAM	Nvidia GPU	VRAM	토큰/초	월별 비용	100만 토큰당 비용†
n1	8	52GB	T4	16GB	0.43	$482.45	$431.82
g2	4	16GB	L4	24GB	12.75	$579.73	$17.54
n1	8	52GB	P100	16GB	1.41	$1121.20	$306.78
n1	4	15GB	V100	16GB	1.30	$1447.33	$429.52

† 30일 기준, 24/7 상시 운영 시 100만 토큰 처리 기준 비용입니다. 인터럽터블 "spot" 인스턴스나 장기 약정이 아닌, 월별 할인만 적용한 기준입니다.

벤치마킹 방법

Hugging Face에서 제공하는 표준 FP16 Llama 3 모델을 거의 수정 없이 사용했습니다.
CPU 기반 추론은 바로 지원되지 않아 추가 작업이 필요하며, 본 글에서는 다루지 않습니다.
운영체제는 Google Cloud Platform 딥러닝 VM의 Debian 11(커널 5.10.205-2) 버전을 사용했습니다.
200GB SSD를 기본 디스크로 할당(대형 모델의 로딩을 빠르게 하기 위함)했습니다.
GCP 리전은 europe-west4입니다.

참고 사항

Meta-Llama-3-8B 모델은 디스크 공간 15GB를 필요로 합니다.
Meta-Llama-3-70B 모델은 132GB 디스크 공간이 필요하며, 이번 글에서는 테스트하지 않았습니다.
Nvidia A100은 europe-west4 및 us-central1 리전에선 현재 제공되지 않아 테스트에 포함하지 못했습니다.
Nvidia K80은 최신 CUDA와 드라이버 호환성 문제로 테스트하지 못했습니다.
Meta Github 저장소 기준 16GB VRAM에서는 Llama 3 실행이 메모리 부족으로 실패했지만, 본 평가에서는 문제가 없는 Hugging Face 모델을 사용했습니다.

결론

Google Cloud Platform에서 Nvidia A100 GPU 인스턴스는 수급이 어려운 상황입니다. 현재 사용 가능한 GPU 중에서는 Nvidia L4가 Llama 3-8B를 실행하기에 성능과 비용 면에서 압도적으로 가장 뛰어납니다.

마지막 업데이트 2025년 8월 28일

Llama 3 성능 및 비용 벤치마크

Google Cloud Platform(GCP) Compute Engine에서 Llama 3 성능 분석

Llama 3-8B 벤치마크 및 비용 비교

벤치마킹 방법

참고 사항

결론

AI 기반 데이터 추출 소프트웨어.
오늘 바로 Parseur를 시작하세요.

Llama 3 성능 및 비용 벤치마크

Google Cloud Platform(GCP) Compute Engine에서 Llama 3 성능 분석

Llama 3-8B 벤치마크 및 비용 비교

벤치마킹 방법

참고 사항

결론

AI 기반 데이터 추출 소프트웨어. 오늘 바로 Parseur를 시작하세요.

AI 기반 데이터 추출 소프트웨어.
오늘 바로 Parseur를 시작하세요.