Jihun Oh

NPU가 성공하기 위해서 본문

Engineering/Semiconductor

NPU가 성공하기 위해서

Jihun Oh 2025. 5. 6. 22:09

요즘 인공지능 모델 추론을 효율화하겠다는 NPU 스타트업들이 많이 생겼다. GPU 대비 전성비(throughput/watt)를 높히거나 TDP(watt), TCO를 낮추고자하는 성능 효율화 목표를 공통적으로 설정하고 달려가고 있다. 전통적으로 임베디드나 모바일 환경에서는 임베디드 보드는 팬이나 히트싱크를 거의 장착하지 않기 때문에 전력이 높아지면 발열 증가로 이어진다. 또한 배터리 제한이 있고 작은 면적안에서 효율적으로 연산해야 하기 때문에 저전력과 전성비가 핵심 조건이다. 그러면 GPU와 경쟁해야하는 데이터센터를 타겟하는 시장에서도 그 조건들로 충분한 것이고 지금 보여주는 성능이 충분히 매력적인것인가?

 

필자가 한창 대학원 재학중이던 2010년대 초반은 GPU가 본래 잘 하던 컴퓨터 그래픽 처리를 넘어서 CUDA 병렬 프로그래밍 인터페이스와 GPGPU 컨셉으로 Medical, scientific application으로 그 영역을 확장해나가기 시작하던 때였다. 그 때까지 리눅스 환경의 고성능 workstation CPU를 사용해서 연구를 했지만 분야 특성상 입력 데이터의 사이즈가 크고 고정밀 부동소수점 연산이 필요했기 때문에 시뮬레이션 실험을 한번 돌려서 결과를 얻기까지 상당한 시간이 걸렸다. 하지만, 병렬연산에 최적화된 알고리즘들을 커스텀 CUDA 커널로 구현해서 50배~100배로 시간을 줄였다는 시도들이 나오기 시작했고 연구 결과물을 얻는 시간을 획기적으로 단축시켰다. 리서치 논문이 아니라 단지 CUDA, OpenCL로 구현해서 성능 보고하는 논문으로도 탑티어 학회에 줄줄이 어셉될 정도로 연구자들은 GPGPU의 가속효과에 열광하였다. 같은 시간에 훨씬 많고 큰 데이터를 처리 가능하게 만들어주었고, 이것은 GPGPU기반의 딥러닝과 생성형 AI 패러다임으로 이어지는 시발점이 되었다.

 

데이터센터향 고성능 NPU(수백TOPS급 이상)에서 핵심 경쟁력으로 주장하는 전성비, 저전력 효과만으로 충분히 매력적이고 GPU 대비 경쟁력이 있는가? 데이터 센터를 직접 구축하거나 임대해서 운영하는 엔드 유저(Hyperscaler 대형 클라우드 기업, AI 추론 서비스 스타트업) 입장에서는 서비스 비용에 직결되기 때문에 중요하다. 그러나 그 효과의 오더 단위가 두세자리가 아니고 한자리수 초반이라고 한다면 아직 입증이 덜된 NPU로 리스크를 떠안고 옮겨가기에는 애매한 성능 수치이다. 그 효과의 정도가 소프트웨어 최적화 만으로 달성 가능한 수치들처럼 보일 때도 있다. 그리고 전성비, 저전력은 비지니스 관점의 메리트에 가깝고, 연구개발 관점의 메리트로서 체감상 매력이 떨어진다.

 

전성비와 저전력 효과를 훨씬 향상해야 할 뿐더러, AI 모델을 연구개발하는 차원의 메리트로서 NPU가 무엇을 제공할 수 있을 지 고민해야 한다. GPU보다 병렬처리를 더 잘하는 NPU를 만들기는 어렵고 대신 GPU가 잘하지 못하는 부분을 찾아서 시원하게 긁어줄 수 있어야 한다. 모든 머신러닝, 딥러닝 알고리즘들이 병렬화에 최적화된 건 아니다. 병렬성이 낮거나 메모리 접근 패턴이 비규칙적이거나, 분기가 많은 경우, 또는 작은 배치 크기로 실시간 응답이 필요한 경우에는 GPU가 잘 하지 못하는 분야들이다. 의사 결정 트리 기반의 알고리즘 (XGBoost, LightGBM), 레이어 깊이가 얕고 비정형 데이터를 처리하는 Graph Neural Network이나, 벡터검색에서 사용되는 ANN은 CPU가 더 잘 하는 알고리즘들이다. 메타의 추천 모델인 DLRM은 MLP처리와 임베딩 lookup이 섞여 있어서 GPU와 CPU를 협업해서 처리한다. MoE기반 LLM, Sparse Transformer같이 연산이 Sparse하게 활성화되어야 하는 것들은 NPU가 더 잘 할 수 있다. 데이터센터향은 아니지만 자율주행이나 로봇 분야에서 정해진 여러 경량 모델을 실시간성으로 동시에 돌려야 하는 멀티모델 추론도 NPU가 효율적으로 잘 할 수 있는 부분이다.

 

 

 

 

 

 

 

 

 

'Engineering > Semiconductor' 카테고리의 다른 글

칩렛, UCIE  (1) 2024.08.26