LLM 추론에서 NPU가 빨라지는 조건
AI PC, 스마트폰, 엣지 디바이스 시대가 열리면서 NPU(Neural Processing Unit)는 더 이상 보조 가속기가 아니라 온디바이스 AI의 핵심 연산 엔진이 되었습니다. 하지만 실무에서는 종종 이런 경험을 합니다.
“분명 NPU가 있는데, 어떤 LLM은 체감이 빠르고 어떤 모델은 오히려 GPU나 CPU랑 별 차이가 없다.”
그 이유는 단순히 “NPU가 느리기 때문”이 아니라, NPU가 빨라지는 조건이 맞지 않았기 때문입니다. 이 글에서는 LLM 추론 관점에서 NPU 성능을 결정짓는 정밀도 · 양자화 · 메모리 대역폭 세 가지 조건을 구조적으로 정리합니다.

I. 한 문장으로 요약하는 NPU 가속의 본질
LLM 추론은 연산보다 메모리가 지배적인 워크로드이며,
정밀도를 낮춰 데이터 크기를 줄이고,
메모리 트래픽을 줄일수록 NPU는 압도적으로 빨라진다.
특히 LLM의 디코드 단계(token-by-token 생성)는 대규모 연산보다 가중치·KV Cache를 얼마나 빠르게 읽고 쓰느냐가 지연시간을 결정하는 경우가 많습니다. 이 구조에서 NPU의 장점은 “연산 능력”이 아니라 낮은 정밀도 + 온칩 메모리 활용에 있습니다.
II. 정밀도(Precision): NPU의 전용 고속도로를 타는가?
2-1. NPU가 가장 잘하는 정밀도
- INT8 : 대부분의 NPU가 최적화된 핵심 구간
- INT4 / INT2 : 최신 NPU에서 확장되는 초저정밀 영역
- FP16 / BF16 / FP8 : 일부 NPU만 부분적으로 지원
NPU는 CPU처럼 범용 부동소수점 연산을 고르게 처리하는 구조가 아니라, 낮은 정밀도 곱-누산(MAC)을 대량 병렬 처리하도록 설계된 하드웨어입니다. 따라서 FP32 중심의 모델은 NPU의 “전용 고속도로”를 제대로 타지 못합니다.
2-2. 정밀도를 낮추면 왜 체감이 커질까?
정밀도 감소는 단순히 연산이 가벼워지는 것보다 메모리에서 오가는 데이터 양이 줄어드는 효과가 훨씬 큽니다. LLM 추론이 메모리 바운드인 상황에서는, 이 변화가 곧바로 지연시간 감소로 이어집니다.
III. 양자화(Quantization): NPU 가속의 스위치
3-1. 양자화가 NPU를 빠르게 만드는 이유
- 가중치·활성값 크기 감소 → 모델 메모리 풋프린트 축소
- 메모리 대역폭 요구량 감소 → 병목 완화
- 온칩 SRAM/캐시에 더 많은 데이터 적재 가능
결과적으로 양자화는 “연산 가속”이라기보다 메모리 병목 제거 전략에 가깝습니다.
3-2. 중요한 함정: 아무 양자화나 하면 안 된다
NPU는 자기 하드웨어·컴파일러·런타임이 기대하는 형태의 양자화가 적용돼야 진짜 성능이 나옵니다.
예를 들어, 내부 연산은 INT8인데 입력이나 출력이 float로 남아 있으면 quantize / dequantize 연산이 CPU에서 수행되며 전체 추론 파이프라인의 병목이 됩니다.
3-3. NPU가 느려지는 대표적인 양자화 실패 패턴
- 입력·출력만 FP로 남아 CPU가 변환 담당
- NPU 미지원 연산이 섞여 CPU/GPU로 반복 폴백
- 레이어별 양자화 스킴 불일치로 변환 오버헤드 증가
IV. 메모리 대역폭: LLM 추론의 진짜 상한선
4-1. 왜 LLM은 메모리 바운드가 되는가?
LLM은 파라미터 수가 크고, 디코드 단계에서는 작은 연산을 반복하며 지속적으로 가중치와 KV Cache를 참조합니다. 이때 연산 유닛은 놀고, 메모리 접근 속도가 전체 성능을 제한합니다.
4-2. NPU가 유리해지는 조건
- 온칩 SRAM/캐시에서 처리되는 비율이 높을수록
- 중간 텐서 write-back이 줄어들수록
- 타일링·블로킹으로 외부 DRAM 접근이 최소화될수록
4-3. 양자화는 메모리 상한선을 직접 낮춘다
정밀도 감소와 양자화는 동일한 메모리 대역폭에서도 더 많은 연산을 처리하게 만들어 실질적인 성능 상한선을 끌어올립니다.
[시장동향] AI 가속기 글로벌 경쟁 격화, 국산 NPU 전략은 ‘레퍼런스 확보’ - 컴퓨터월드
[컴퓨터월드] 인공지능(AI) 산업이 고도화되면서 방대한 연산을 뒷받침하는 ‘AI 가속기’의 중요성이 커지고 있다. 이 시장에서 엔비디아(NVIDIA) 그래픽처리장치(GPU)는 전 세계 데이터센터 시장
www.comworld.co.kr
V. 실전 체크리스트: 우리 모델은 NPU에서 빨라질까?
1. NPU 가속이 잘 먹히는 경우
- INT8/INT4 경로가 입력부터 출력까지 유지됨.
- MatMul/GEMM 중심 구조
- NPU 지원 연산 비중이 높음.
- 온칩 메모리 활용률이 높음.
2. 기대만큼 안 나오는 경우
- 중간중간 CPU 폴백 발생
- quantize/dequantize가 반복됨.
- 너무 작은 텐서/배치로 오버헤드가 큼.
- 외부 메모리 대역폭이 병목
'인공지능' 카테고리의 다른 글
| Apple Neural Engine vs Intel NPU vs Snapdragon NPU: 온디바이스 성능/전력 효율 차이 완전 정리 (0) | 2026.01.31 |
|---|---|
| AI PC에서 CPU·GPU·NPU는 실제로 어떻게 분업할까? (로컬 LLM·영상 보정·회의 요약) (0) | 2026.01.31 |
| LLM 비용 구조 완전 정리: Training 비용 vs Inference 비용 차이 (0) | 2026.01.31 |
| NPU vs GPU vs TPU 비교 분석: AI 가속기 3대장, 언제 무엇을 써야 할까? (0) | 2026.01.31 |
| AI 학습(Training)과 추론(Inference) 완전 정리: 모델 개발 단계 vs 서비스 운영 단계 (0) | 2026.01.31 |