온디바이스 AI 시대: 스마트폰에서 LLM을 직접 실행하는 게 실용적이 됐습니다

1년 전만 해도 "스마트폰에서 AI 모델 직접 실행"은 기술 시연에 가까운 이야기였다. 응답 속도도 느리고, 모델 크기가 수 기가바이트라 용량도 부담스러웠다. 지금은 좀 달라졌다.

애플의 Apple Intelligence는 아이폰 기기에서 약 3B 파라미터급 모델을 직접 돌린다. 삼성 갤럭시 AI도 일부 기능은 서버 없이 기기 내 처리한다. Qualcomm은 Snapdragon 8 Elite에 NPU 성능을 대폭 늘렸고, Google은 Pixel 9 시리즈에서 Gemini Nano를 온디바이스로 실행한다. 올해 나온 플래그십 스마트폰들은 하나같이 "AI 처리 가속"을 핵심 스펙으로 내세우고 있다.

## 왜 클라우드 AI 대신 온디바이스인가

실용적인 이유가 몇 가지 있다.

**프라이버시**: 문자 메시지나 통화 기록, 사진을 서버에 보내지 않아도 된다. 실제로 민감한 데이터를 AI에 맡기기 꺼려하는 사용자층이 꽤 두텁다.

**응답 속도**: 네트워크 왕복 없이 기기에서 바로 처리하면 레이턴시가 줄어든다. 맞춤법 교정이나 요약 같은 기능은 클라우드 API 호출보다 훨씬 빠르게 느껴진다.

**오프라인 사용**: 비행기 안이나 지하철 터널, 해외 로밍 없이도 동작한다. 통역, 자막, 메모 요약이 온디바이스라면 인터넷 연결과 무관하다.

**비용**: 클라우드 API 호출은 토큰당 비용이 든다. 기기 내 처리는 추가 비용 없이 사용 횟수에 무관하다.

## 실제로 어떤 수준인가

솔직히 말하면, 아직 GPT-4나 Claude 수준은 아니다. 3B~7B 파라미터 온디바이스 모델이 잘하는 것과 못하는 것이 있다.

**잘하는 것**: 짧은 텍스트 요약, 맞춤법·문법 교정, 감정 분석, 분류 작업, 간단한 번역. 이 정도면 일상적인 앱 기능으로 충분히 쓸 수 있다.

**아직 한계**: 복잡한 추론, 긴 문서 처리(컨텍스트 윈도우 제한), 코딩 어시스턴트 수준의 정확도. 이쪽은 여전히 클라우드가 낫다.

한국어 지원도 가변적이다. 영어 기반으로 학습된 모델을 파인튜닝한 경우 한국어 품질이 들쭉날쭉하다. 삼성은 갤럭시 AI에서 한국어 최적화를 따로 진행했고, 애플 인텔리전스 한국어 버전은 iOS 19 베타에서 처음 모습을 드러냈다.

## 주목할 점

온디바이스 AI의 성능은 칩 세대를 탈 때마다 빠르게 올라가고 있다. 2024년 Snapdragon 8 Gen 3과 2025년 Snapdragon 8 Elite의 NPU 처리 속도 차이는 상당하다. 애플 A18 Pro 칩도 이전 세대 대비 뉴럴 엔진 성능이 눈에 띄게 향상됐다.

지금 당장 클라우드 AI를 대체한다기보다, 기기에서 바로 처리해도 충분한 작업 범위를 점점 넓혀가는 방향이다. 1~2년 후면 현재 클라우드만 가능한 기능들 중 상당수가 기기에서 처리될 가능성이 있다. 특히 프라이버시에 민감한 영역(헬스케어, 금융 알림, 개인 메시지 분석)에서 온디바이스가 더 빠르게 퍼질 것 같다.

온디바이스 AI 시대: 스마트폰에서 LLM을 직접 실행하는 게 실용적이 됐습니다

// COMMENTS

ON THIS PAGE