AWS 인프라에서 Llama-2 모델의 월간 운영비용 및 처리량 분석

Martin Hong
4 min readMay 3, 2024

--

#aws #inf2 #llama #meta #llama3 #price #Throughput

클라우드 컴퓨팅 환경에서 대규모 언어 모델을 운영하는 비용과 처리량은 모델을 효율적으로 사용하는 데 중요한 고려사항입니다. 본 블로그에서는 AWS의 inf2.48xlarge 인스턴스를 사용하여 Llama-2 모델 7B와 70B의 월간 운영 비용과 처리량을 분석합니다.

Inf2 인스턴스는 AWS에서 설계한 세 번째 DL(deep learning) 가속기인 Instance 이며, 최대 12개의 AWS Inferentia2로 구동
https://instances.vantage.sh/aws/ec2/inf2.48xlarge

모델 선택 및 인스턴스

Llama-2 모델은 7B와 70B 두 가지 크기로 제공되며, 각각의 모델은 다른 처리 용량과 특성을 가집니다. AWS에서는 inf2.48xlarge 인스턴스를 사용하여 이 모델들을 지원합니다. 이 인스턴스는 12개의 Inferentia2 가속기를 포함하고 있어, 높은 처리량과 낮은 지연시간을 제공합니다.

처리량 분석

라마2의 파라미터별 inf2.48xlarge에서 처리량을 비교
https://huggingface.co/docs/optimum-neuron/benchmarks/inferentia-llama2-7b

처리량은 모델이 초당 처리할 수 있는 토큰의 수로 측정됩니다. Llama-2 7B 모델은 230에서 354 토큰/초 (배치 사이즈에 따라 상이함) 사이의 처리량을 보여주며, 70B 모델은 약 42.23 토큰/초의 처리량을 제공합니다. 이러한 차이는 모델의 크기와 복잡성에 기인합니다.

비용 예상

인스턴스의 시간당 비용은 $12.98이며, 이를 기반으로 월간 비용을 계산합니다. 하루 24시간, 한 달 30일 동안 계속해서 인스턴스를 운영한다고 가정할 때, 월간 비용은 아래와 같습니다. 월 1214만원 (1300원 기준)

3년 예약과 표준 가격을 월비용으로 환산하여 비교

아래 표는 두 모델의 월간 비용과 처리량을 비교한 것입니다.

결론

Llama-2 모델을 AWS inf2.48xlarge 인스턴스에서 운영하는 비용과 처리량을 이해함으로써, 사용자는 자신의 요구 사항과 예산에 맞는 최적의 모델을 선택할 수 있습니다. 모델의 선택은 비용, 처리량 및 운영 목적에 따라 달라질 수 있으며, 이러한 분석은 효율적인 의사결정을 하는 데 도움을 줄 것입니다.

출처

--

--

Martin Hong
Martin Hong

Written by Martin Hong

CAIO, LLM Architect, Tech Product Owner, Educator, Visionary, https://www.linkedin.com/in/martin-hong-sw/

Responses (2)