산업용 온디바이스 AI를 구현하기 위해 어떤 AI 가속기를 골라야 할까? – NPU 개념, 속도 등
Chloe Woo | Content Strategist
온디바이스 AI(On-Device AI)는 클라우드 기반의 AI와 달리, 데이터를 디바이스 자체에서 처리하는 기술입니다. 센서, 엣지 디바이스, 로봇 등 다양한 하드웨어에 AI 모델을 탑재하여 실시간 분석 및 추론을 가능하게 하죠. 이는 데이터 전송 시간을 단축하고, 네트워크 의존성을 줄이며, 보안성을 강화하는 데 중요한 역할을 합니다.
이번 아티클에서는 이차전지 제조 현장을 예로 들어 산업용 온디바이스 AI를 구현한다는 가정 하에, 어떤 AI 가속기를 구매해야 하는지 살펴보겠습니다.
✓ 제조 현장에 온디바이스 AI를 도입하면 어떤 혜택을 누릴 수 있는지 더 자세하게 알아보세요.
AI 가속기(AI accelerator)란?
AI 가속기(또는 AI 칩/AI 반도체)는 인공지능 및 머신러닝의 속도를 높이기 위해 설계된 특수한 하드웨어입니다.
기존의 범용 CPU(중앙 처리 장치)는 순차적으로 명령을 처리해 인공지능에 필요한 대규모 병렬 연산을 처리하기에는 한계가 있었어요. 전력 효율도 낮고, 처리 속도도 느렸죠. 이런 문제를 해결하기 위해 AI 가속기가 개발되었습니다.
AI 가속기의 종류
(1) GPU(Graphics Processing Unit, 그래픽처리장치)
GPU는 본래 CPU를 도와 그래픽을 처리하기 위한 하드웨어로 개발되었는데, 병렬 처리 능력이 뛰어난 덕분에 2016년부터 AI 작업에 널리 사용되고 있습니다. 자율주행차와 같은 장치의 훈련과 추론 모두에서 딥러닝을 촉진하는 방향으로 계속 진화하고 있습니다.
(2) TPU(Tensor Processing Unit, 텐서처리장치)
TPU는 구글이 딥러닝에 최적화된 맞춤형 칩으로 개발한 AI 가속기로, 텐서플로우(TensorFlow)라는 인공지능 프레임워크와 함께 구글 서비스의 인공지능 기능을 뒷받침합니다. 구글에 따르면, 신경망을 사용한 AI 추론 작업을 할 때 CPU, GPU 대비 15~30배 성능을 낸다고 합니다. 하지만 수요에 비해 매우 제한된 수량으로 생산되기 때문에 가격이 비쌀 수 있습니다.
(3) NPU(Neural Network Processing Unit, 신경망처리장치)
NPU는 인간의 신경 시스템을 모방하는 프로세서를 통해 AI 애플리케이션을 가속화하기 위해 특별히 설계된 칩입니다. 모바일, 사물인터넷(IoT) 기기 등에 특화된 저전력 AI 가속기로, 에너지 효율적이며 장기간 사용에 적합합니다.
저전력, 저사양의 엣지 기기에서 직접 AI를 구현하려면 NPU가 필수입니다.
GPU | TPU | NPU | |
---|---|---|---|
목적 |
|
|
|
장점 |
|
|
|
단점 |
|
|
|
활용 |
|
|
|
NPU 성능
(1) TOPS
현재 AI 가속기의 성능을 측정하는 주요 방법 중 하나는 TOPS(tera of operations per second)입니다. 덧셈, 곱셈 등의 연산이 1초 동안 실행되는 횟수를 조(trillion) 단위로 측정한 수치로, AI 추론의 잠재적인 최고 성능을 측정하는 단위입니다. [자료 출처]
TOPS = 2 x MAC 연산기 개수 x 주파수 / 1,000,000,000,000
- MAC(multiply-accumulate, 곱셈 누적): AI 워크로드의 중심이 되는 수학 연산을 실행합니다. 행렬 곱셈은 곱셈(multiplication)과 누산기(accumulator)의 가산(addition)이라는 두 가지 기본 연산으로 구성되는데요. MAC 연산기는 클럭 사이클(명령어를 실행하기 위해 데이터를 가져오고 해석하고 실행하는 단계) 당 곱셈과 가산, 즉 2회의 연산을 실행합니다. 각 NPU에는 아키텍처에 따라 서로 다른 정밀도로 작동하는 MAC 연산기가 있는데요. 이 연산기가 많을수록 TOPS 성능이 더 높아집니다.
- 주파수(frequency): NPU나 MAC 연산기가 작동하는 속도(초당 사이클)를 말합니다. 주파수가 높을수록 시간당 더 많은 연산이 가능하므로 처리 속도도 빨라집니다. 하지만 주파수가 늘어나면 전력 소비와 발열도 커지기 때문에 배터리 수명과 사용자 경험에 영향을 미칩니다. TOPS 수치는 대개 최대 동작 주파수를 나타냅니다.
(2) 정밀도
여기에 더해, 정밀도(precision)이라는 성능을 함께 볼 필요가 있습니다. 계산의 세밀함을 뜻하는 지표인데요. 이 정밀도가 높을수록 모델의 추론 정확도가 높아진다고 볼 수 있습니다. 고정밀 AI 모델은 32비트 및 16비트 부동 소수점 연산을 실행합니다. 더 빠른 대신 정밀도와 전력 소모량이 낮은 모델은 보통 8비트 및 4비트 정수 정밀도를 사용합니다.
어떤 AI 가속기를 써야 할까?
모든 엔지니어링 작업이 그렇듯이, 결국은 ‘최적화’의 문제입니다. 상충(trade-off) 관계에 있는 다양한 요인들을 다각도로 고려해 AI 가속기를 선택해야 합니다. 고려해야 할 항목들을 아래에서 자세히 살펴보겠습니다.
(1) 택타임 vs TOPS(가격)
AI 모델의 계산 성능은 당연하게도 NPU의 성능과 높은 관련이 있습니다. 제조 현장에서는 무엇보다 먼저 택타임(Tact time; 생산 목표를 달성하기 위해 제품 하나를 만드는 데 필요한 시간)부터 만족해야 하는데요.
낮은 TOPS의 NPU를 사용하면 같은 AI 모델이라도 추론 속도가 느려지고 정확도도 떨어질 수 있습니다. 택타임을 맞추지 못하면 쓸모없는 AI가 되고 맙니다. 최고사양의 TOPS를 사용하면 해결되겠지만, 가격이 비싸집니다. 애초 제조 현장에 온디바이스 AI를 구현하려던 목적 중 하나(가격 절감)를 달성할 수 없게 됩니다.
(2) 경량화 AI 기술력
그래서 중요한 것이 정확도 높은 경량 AI 모델을 만들 수 있는 기술력입니다.
온디바이스 AI 검사를 하려면 딥러닝 모델을 경량화/최적화해야 합니다. 예를 들어, 양자화 기술은 숫자의 비트(bit) 수를 줄이는 방법입니다. 보통 딥러닝 모델은 가중치 값을 32비트 부동소수점(floating point)으로 표현하는데, 양자화를 통해 8비트 정수로 줄일 수 있습니다. 이렇게 하면 계산 속도가 더 빨라지며, 메모리 사용량과 전력 소비량도 줄어듭니다.
이때 데이터 포맷과 비트 수 등을 세밀하게 조절해야 추론 정확도가 떨어지지 않는데요. 이렇게 제조 현장 상황(택타임 등)과 NPU 가격/사양을 만족시킬 수 있도록 AI 모델을 최적화하는 능력이 바로 아하랩스의 차별화된 경험과 기술력입니다.
마치며
산업용 온디바이스 AI는 제조, 물류, 의료 등 다양한 산업에서 혁신을 주도할 잠재력을 지니고 있습니다. 하드웨어의 선택은 성공적인 도입을 위해 중요한 요소이며, 사전 준비 및 테스트를 통해 최적의 성과를 얻을 수 있습니다. 도입 후에는 비용 절감, 운영 효율성 증대, 데이터 보안 강화와 같은 다양한 혜택을 누릴 수 있고요.
온디바이스 AI 도입은 단순한 기술적 도전이 아닌, 기업의 경쟁력을 높이는 전략적 선택입니다. 글로벌 제조 현장에서 검증된 성공사례를 보유하고 있는 아하랩스가 도와드리겠습니다.