AI PC에서 CPU·GPU·NPU는 실제로 어떻게 분업할까?
로컬 LLM · 영상 보정 · 회의 요약을 예시로, “온디바이스 AI 파이프라인” 관점에서 현실적인 분업 구조를 정리합니다.

I. 한 문장 요약: CPU·GPU·NPU 역할
1. CPU = 지휘/연결
앱 로직, 스케줄링, 데이터 전처리·후처리, I/O, 네트워크, 저장/검색, 프롬프트 구성 같은 “AI를 돌리기 위한 주변 작업”을 맡습니다.
2. GPU = 큰 병렬 연산 + 그래픽
대규모 행렬 연산(특히 모델이 큰 경우), 고해상도 영상 처리, 렌더링/합성/인코딩 등 “무거운 처리량(Throughput)”에 강합니다.
3. NPU = 상시·저전력 인퍼런스
카메라/마이크 상시 효과, 실시간 AI 보정, 배터리 친화적인 추론처럼 “항상 켜두는 워크로드”에 최적화된 전용 엔진입니다.
AI PC는 “하나의 칩이 끝까지 다 처리”하기보다, OS/런타임이 전력·지연·동시 실행 상황을 보고 CPU/GPU/NPU에 분산 배치합니다.
II. 왜 NPU가 따로 필요한가?
NPU는 “최고 성능”만 보면 GPU가 더 강한 상황도 많지만, 실제 사용자 경험에서 중요한 건 배터리·발열·소음·항상성(Always-on)입니다.
- 저전력: 같은 종류의 추론을 더 적은 전력으로(배터리/발열 감소)
- 실시간: 웹캠/마이크처럼 수십 ms 단위로 반응해야 하는 작업
- 동시성: GPU가 이미 화면/게임/영상에 바쁠 때도 AI를 유지
- 항상 켜두기: “회의 중 내내” 작동하는 효과/인퍼런스에 적합
III. 실제 분업을 결정하는 4가지 기준
| 기준 | 의미 | 유리한 엔진(경향) |
|---|---|---|
| 지연(Latency) | 실시간(카메라/마이크)처럼 “즉각 반응”이 중요한가? | NPU > GPU > CPU |
| 전력/발열 | 배터리/발열/팬소음이 중요한가? 오래 켜두나? | NPU > CPU > GPU(상황에 따라) |
| 처리량(Throughput) | 한 번에 크게 돌려서 빨리 끝내야 하나? (대형 모델/대규모 영상) | GPU > NPU > CPU |
| 동시성 | GPU가 이미 그래픽/영상/게임을 처리 중인가? | NPU 우선 배치(경합 회피) |
같은 작업이라도 “지금 배터리 모드인지”, “화면 렌더링이 바쁜지”, “회의 앱이 동시에 도는지”에 따라 배치가 바뀌는 게 정상입니다.
IV. 예시 1) 로컬 LLM(온디바이스 챗·요약)은 어떻게 나뉘나
로컬 LLM은 크게 보면 (1) 입력 준비 → (2) 추론 → (3) 결과 정리로 나뉘고, 이 단계별로 CPU/NPU/GPU가 역할을 나눠 가집니다.
4-1. 경량/중간 LLM(예: 3B~8B급)에서 흔한 파이프라인
- CPU: 입력/문맥 준비
대화 히스토리 정리, 프롬프트 구성, 토크나이즈/디토크나이즈, RAG라면 문서 검색·조합 등을 처리합니다. - NPU: 추론(토큰 생성 구간 중심)
상시·저전력 특성 덕분에 “백그라운드 요약/정리” 같은 워크로드에 유리합니다. - GPU: 필요 시 성능 모드
모델이 크거나, “지금은 전력보다 속도가 중요”하면 GPU가 메인 추론 엔진이 되기도 합니다.
4-2. 대형 LLM(예: 13B 이상)에서의 현실
- GPU 우세: 가중치 규모/메모리 대역폭/처리량 때문에 GPU가 유리한 구간이 많습니다.
- NPU는 보조적: 일부 모델/연산만 가속하거나, “임베딩/분류/짧은 요약” 같은 작은 작업에 쓰이기 쉽습니다.
- CPU는 끝까지: 검색/파일 I/O/앱 연동/결과 포맷 등 ‘주변부’를 계속 담당합니다.
// 로컬 LLM 분업(개념)
// CPU: prompt + tokenize + (RAG 검색/조합) + postprocess
// NPU or GPU: model inference (decode loop / attention + matmul)
// CPU: detokenize + formatting + 저장/공유/앱 연동
V. 예시 2) 영상 보정(웹캠): 배경 흐림·오토프레이밍·아이컨택
영상 보정은 “실시간”이 핵심입니다. 프레임 단위로 꾸준히 처리해야 하므로, NPU가 담당하는 ‘상시 AI 효과’로 설계되는 경우가 많습니다.
5-1. 전형적인 영상 파이프라인(개념)
- 카메라 입력 → 드라이버/ISP 처리
- NPU → 배경 분리/블러, 프레이밍, 시선 보정, 음성 포커스 등 실시간 AI 효과
- GPU → 화면 합성/렌더링, 고해상도 필터, 인코딩 등
- CPU → 회의 앱 로직/설정, 네트워크 전송, 프레임 관리
- GPU는 렌더링/인코딩과 경합이 잦으므로, 실시간 효과는 NPU로 분리하면 끊김/발열을 줄이기 좋습니다.
- CPU는 “AI 자체”보다 앱/전송/제어를 맡는 편이 전체 지연을 줄입니다.
VI. 예시 3) 회의 요약: 실시간 자막 → 요약 → 액션아이템
회의 요약은 사실 3단계로 쪼개면 분업이 더 명확해집니다. ASR(음성→텍스트) / 요약(LLM) / 후처리(업무화) 입니다.
6-1. 1단계: 음성 → 텍스트(ASR)
- NPU: 실시간 ASR(지연/전력 측면에서 유리)
- CPU: 오디오 스트림 처리, 타임스탬프/자막 정리, 간단한 화자 분리
- GPU: ASR 모델이 크거나, 멀티채널/고정밀이면 선택될 수 있음
6-2. 2단계: 텍스트 → 요약(LLM)
- CPU: 안건/결정/이슈/담당자 형태로 구조화, 프롬프트 구성
- NPU 또는 GPU: 요약 LLM 추론
- 짧은 요약/키포인트: NPU에 잘 맞는 경우가 많음
- 긴 회의록/깊은 추론: GPU가 유리한 경우가 많음
6-3. 3단계: 액션아이템화(업무 도구 연동)
- CPU: 문장 다듬기, 템플릿 적용, 저장/검색 인덱싱, 메일/노션/캘린더 등 앱 연동
// 회의 요약 분업(개념)
// NPU: 실시간 ASR + 가벼운 분류/태깅
// CPU: 구조화(안건/결정/To-do) + 프롬프트/템플릿 + 앱 연동
// GPU: 긴 요약/대형 모델 추론(필요 시)
VII. 현장에서 자주 보는 분업 패턴 6가지
- Always-on 효과는 NPU: 웹캠/마이크 보정, 음성 감지, 간단한 분류/태깅
- 대형 모델/대규모 처리량은 GPU: 긴 문서 요약, 큰 LLM, 고해상도 영상 처리
- CPU는 “AI 주변부”를 끝까지 담당: 검색·I/O·프롬프트·정리·연동
- GPU 경합이 생기면 NPU로 회피: 렌더링/게임/영상 인코딩과 동시 실행 시
- 품질/정밀도는 상황에 따라 스케일: 배터리 모드에서는 경량 모델/저정밀로 전환
- 파이프라인 분해가 곧 최적화: “단일 덩어리”가 아니라 단계별로 엔진을 바꾸는 것이 일반적
VIII. 내 워크로드에 맞는 배치 체크리스트
- 실시간이냐? (카메라/마이크/자막처럼 끊기면 안 되는가) → NPU 우선 고려
- 상시로 오래 도냐? (회의 1시간 내내, 백그라운드 계속) → NPU 우선 고려
- 모델이 크냐? (가중치/컨텍스트가 커서 메모리 압박이 큰가) → GPU 우선 고려
- 동시에 화면/영상이 바쁘냐? (렌더링/인코딩과 경합) → NPU로 분산 또는 품질 스케일
- CPU 병목이 있냐? (토크나이즈/파일 I/O/검색/후처리) → 파이프라인 최적화 포인트
CPU 대 GPU 대 NPU: 차이점은 무엇인가요?
지금쯤이면 CPU, GPU, 그리고 최근에는 NPU에 대해 들어보셨을 겁니다. 이 다양한 컴퓨팅 장치의 차이점과 이를 가장 잘 활용하는 방법을 알아보세요.
www.corsair.com
IX. 결론
AI PC에서 CPU·GPU·NPU는 “각자 잘하는 구간”이 다릅니다. 정리하면 다음과 같습니다.
- 로컬 LLM: CPU가 문맥/검색/정리를 맡고, NPU(상시·저전력) 또는 GPU(대형·고성능)가 추론을 담당
- 영상 보정: NPU가 실시간 AI 효과, GPU가 합성/렌더링/인코딩, CPU가 앱/전송/제어
- 회의 요약: NPU로 ASR/가벼운 추론을 유지하고, 긴 요약은 GPU로 올리며, CPU가 구조화/연동을 담당
“상시·저전력·실시간 = NPU”, “대형·고처리량 = GPU”, “오케스트레이션·연동·정리 = CPU” — 이 3문장으로 분업이 대부분 설명됩니다.
'인공지능' 카테고리의 다른 글
| GPU vs NPU: 왜 NPU가 추론(Inference)에 강한가? (0) | 2026.01.31 |
|---|---|
| Apple Neural Engine vs Intel NPU vs Snapdragon NPU: 온디바이스 성능/전력 효율 차이 완전 정리 (0) | 2026.01.31 |
| LLM 추론에서 NPU가 빨라지는 조건: 정밀도·양자화·메모리 대역폭 완전 정리 (0) | 2026.01.31 |
| LLM 비용 구조 완전 정리: Training 비용 vs Inference 비용 차이 (0) | 2026.01.31 |
| NPU vs GPU vs TPU 비교 분석: AI 가속기 3대장, 언제 무엇을 써야 할까? (0) | 2026.01.31 |