[AIOps 1편] AI 자율제조 필수품, AIOps와 MLOps는 어떻게 다를까?
Chloe Woo | Content Strategist
전통적인 IT 운영에서 AIOps로의 진화
오늘날의 빠르게 변화하는 디지털 환경에서 IT 운영 팀에 대한 압력은 그 어느 때보다 커지고 있습니다. IT 환경의 복잡성이 증가함에 따라, 조직은 전통적인 도구와 수동 프로세스만으로는 이러한 변화에 적응할 수 없게 됐죠.
특히 제조 현장에서는 이러한 문제가 더욱 두드러지게 나타납니다. 제조업은 다양한 기계와 센서, 운영 기술(OT) 시스템이 복잡하게 얽혀 있으면서, 이들 시스템이 IT 인프라와 원활하게 통합되지 않는 경우가 많습니다. 또한, 노후된 장비와 데이터 사일로 문제로 인해 데이터 수집 및 분석이 어렵고, 실시간으로 문제를 감지하고 대응하기가 힘듭니다. 결국 생산 중단과 같은 심각한 결과를 초래할 수 있죠. 더불어 숙련된 IT 인력의 부족과 사이버보안 위협은 제조 현장의 IT 운영을 더욱 어렵게 만듭니다.
제조 환경은 대규모의 데이터를 실시간으로 처리하고, 이를 통해 예측 유지보수 및 운영 자동화가 가능해야 합니다.
하지만 기존의 전통적인 도구와 접근 방식만으로는 이러한 복잡성을 해결하기에 한계가 있습니다. 전통적인 IT 운영 방식은 문제가 발생할 때마다 이를 수동으로 분석하고 해결하는 데 중점을두는데, 이러한 반응형 접근 방식은 다운타임이 발생할 경우 심각한 재정적 손실과 고객 불만을 초래할 수 있는 오늘날의 환경에서는 충분치 않습니다.
결국 제조 현장은 IT 운영의 복잡성을 줄이고 생산성을 향상시키며 시스템의 안정성을 확보하기 위해 AIOps(인공지능을 활용한 IT 운영)와 같은 첨단 기술의 도입이 필수적입니다.
과연 AIOps는 어떤 개념이고, 제조 기업이 이를 도입할 경우 어떤 이점이 있을까요?
AIOps란?
(1) 정의
AIOps(Artificial Intelligence for IT Operations)는 AI와 머신러닝을 활용해 IT 운영을 자동화하고 최적화하는 기술입니다. AIOps는 IT 시스템에서 발생하는 방대한 양의 데이터를 실시간으로 분석하여 문제를 감지하고 예측하며 자동으로 대응하는 것을 목표로 하죠. 이를 통해 IT 운영팀은 문제를 더 빠르게 해결하고, 시스템 가용성을 높이며, 운영 비용을 절감할 수 있습니다.
(2) 핵심 구성 요소
AIOps를 이루는 핵심 구성 요소는 다음과 같습니다.
- 데이터 수집 및 통합:
IT 환경은 로그 파일에서부터 성능 메트릭, 이벤트까지 엄청난 양의 데이터를 생성합니다. AIOps는 이런 데이터를 실시간으로 수집하고 통합하는데요. 이때 통합적인 인사이트를 얻기 위해서는 다양한 데이터 소스에서 데이터를 수집하는 것이 중요합니다. FTP, 네트워크 드라이브, TCP/IP 소켓, Modbus/MELSEC, REDIS, AMQP 등 산업 현장에서 사용하는 대부분의 통신 프로토콜을 폭넓게 지원하는 솔루션을 활용하면 이종 기기간 데이터를 일괄 수집하고 전송할 수 있으며, 네트워크 프로토콜을 쓰지 않는 레거시 장비도 카메라를 활용한 광학문자인식(OCR) 머신러닝 모델을 이용해 중요한 데이터를 추출할 수 있습니다. - 데이터 저장 및 관리:
수집된 대규모 데이터를 효율적으로 저장하고 관리할 수 있는 인프라가 필요합니다. 이를 위해 데이터 레이크나 분산 데이터베이스 기술이 활용됩니다. - 데이터 전처리 및 정규화:
수집된 데이터를 분석 가능하도록 전처리하고, 정규화하여 분석 정확성을 높입니다. 여기에는 중복 데이터 제거, 데이터 변환, 필터링 등의 작업이 포함됩니다. 예컨대, 글로벌 이차전지 제조사는 다양한 통신 프로토콜을 지원하는 솔루션을 이용해 품질검사 이미지 데이터와 셀의 고유 바코드 숫자 데이터를 자동 통합해 IT 운영의 관리 복잡도를 높이지 않으면서도 생산 이력을 추적할 수 있게 되었습니다. - 머신러닝 및 분석:
AIOps의 핵심은 머신러닝 알고리즘을 사용하여 방대한 양의 데이터를 분석함으로써, 사람이 발견하기 어려운 패턴과 상관관계를 식별하는 것입니다. 이를 통해 생산품의 표면 결함, 로봇 암이나 노후 카메라 등의 이상 작동, 압력이나 진동 같은 시계열 데이터에서의 이상치 등 다양한 이상 탐지를 수행할 수 있죠. 예를 들어, 글로벌 이차전지 제조사는 이상탐지 딥러닝 모델을 활용해 파우치형 배터리의 품질 검사 안정화 기간을 67% 단축했으며, 발전 설비에 베어링을 납품하는 한 회사는 데이터 별 특성 중요도(Feature Importance)를 분석하고 그 결과를 시각화해서 오알람을 97% 감소시켰습니다.또한, AIOps의 강력한 기능 중 하나가 과거 데이터를 기반으로 미래의 문제를 예측할 수 있는 능력입니다. 예측 분석을 활용하면 비즈니스가 심각한 영향을 받기 전에 문제를 해결할 수 있으며, 실시간 인사이트를 제공받아 공정을 최적화함으로써 비용을 절감하고 품질을 높일 수 있습니다. 예컨대, 한 제조 기업은 딥러닝 모델을 활용해 생산 자재 변경으로 인한 품질검사 이미지의 미세한 변화를 조기에 파악하고, 다운타임 없이 품질 검사 효율과 생산 수율을 유지할 수 있었습니다. - 이벤트 상관 관계 분석:
다양한 소스에서 발생한 이벤트의 상관 관계를 분석하여 문제의 근본 원인을 찾아냅니다. 이를 통해 IT 문제의 조기 탐지가 가능하며, 운영자가 신속하게 정보에 입각한 결정을 내릴 수 있도록 돕습니다. - 자동화 및 대응:
AIOps는 단순히 문제를 식별하는 것에 그치지 않고, 문제에 대한 대응을 자동화합니다. 예를 들어, 특정 이벤트가 발생하면 자동으로 스크립트를 실행하거나, 관련 팀에게 경고를 발송하는 기능이 포함됩니다. 서비스 재시작과 같은 간단한 작업에서부터, 인간의 개입 없이 문제를 해결하기 위해 여러 시스템에서 일련의 작업을 조율하는 복잡한 프로세스에 이르기까지 다양합니다. - 대시보드 및 시각화:
IT 운영 상태를 실시간으로 모니터링하고 이해하기 쉽게 시각화할 수 있는 대시보드가 필요합니다. 예컨대 사용자는 시각화된 대시보드를 통해 각 측정치를 시간 순서대로 파악하고 데이터 포인트 간 변동을 관찰할 수 있으며, 각 샘플 그룹의 평균값과 범위, 표준편차 등을 한 눈에 확인할 수 있습니다. 이를 통해 공정 개선의 필요성을 빠르고 정확하게 판단할 수 있습니다. - 협업 도구 통합:
AIOps는 다양한 협업 도구와 통합되어 운영 팀 간의 커뮤니케이션을 원활하게 합니다. 이를 통해 문제 해결이 더 신속하게 이루어질 수 있습니다. 협업 기능이 강화된 AIOps 플랫폼을 활용하면, 다양한 구성원이 동시 접속해서 데이터를 라벨링하고 머신러닝 모델을 개발하고 실험하며 데이터와 모델의 버전을 쉽게 관리할 수 있습니다. - 지속적인 학습 및 최적화:
시스템이 지속적으로 학습하고 최적화할 수 있는 기능이 필요합니다. 특히 데이터 드리프트와 모델 드리프트는 AI 시스템에서 성능 관리와 지속적인 최적화를 위해 매우 중요하죠. 드리프트를 적절히 관리하지 않으면 시간이 지남에 따라 모델의 예측 정확도가 저하되고, 결국 비즈니스에 부정적인 영향을 미칠 수 있습니다. 예컨대, 입력 데이터의 드리프트를 모니터링하는 딥러닝 모델을 이용하면 비정상으로 분류된 이미지를 확인하고 카메라 설정을 변경하거나 노후 조명을 교체하는 등 필요한 조치를 취할 수 있습니다.
AIOps와 MLOps는 어떻게 다를까?
AIOps와 비슷한 개념으로 MLOps(머신러닝 운영, Machine Learning Operations)가 있습니다. 제조 현장을 기준으로 결론부터 말하자면, AIOps는 MLOps를 포함한 개념으로써 IT 운영의 실질적인 효율성을 높이는 실제 응용에 더 무게중심이 있다고 볼 수 있습니다.
(1) 공통점
- AI와 머신러닝 활용:
MLOps와 AIOps 모두 AI와 머신러닝을 활용합니다. - 자동화 강조:
두 접근 방식 모두 자동화를 중시합니다. MLOps는 머신러닝 모델의 배포와 운영을 자동화하여 일관성과 신뢰성을 확보하며, AIOps는 IT 운영의 여러 측면을 자동화하여 문제를 신속하게 해결하고 다운타임을 줄입니다. - 데이터 중심적 접근:
MLOps와 AIOps는 모두 데이터 중심적입니다. MLOps는 데이터 수집, 전처리, 모델 학습에 중점을 두며, AIOps는 IT 환경에서 생성되는 데이터를 실시간으로 분석하여 인사이트를 도출하고 운영을 최적화하는 데 중점을 둡니다. - 협업 강화:
두 접근 방식 모두 다양한 팀 간의 협업을 촉진합니다. MLOps는 데이터 과학자, 엔지니어, 운영 팀이 협력하여 머신러닝 프로젝트를 성공적으로 관리하도록 돕고, AIOps는 IT 팀이 통합된 플랫폼에서 데이터를 공유하고 협력할 수 있도록 지원합니다.
(2) 차이점
- 목표:
MLOps는 주로 AI, 머신러닝 모델의 개발 및 배포에 초점을 맞추고 있는 반면, AIOps는 AI와 머신러닝 모델을 활용해 IT 운영의 자동화 및 효율적인 관리 방법을 구현합니다. MLOps가 데이터 과학이나 AI 프로젝트에 필수적이라면, AIOps는 IT 인프라 관리에서 더 중요한 역할을 하죠. - 사용자:
MLOps는 주로 데이터 과학자와 머신러닝 엔지니어를 대상으로 하며, 이들이 모델을 효과적으로 개발/배포할 수 있도록 지원합니다. 반면, AIOps는 AI 비전문가인 공정 관리자나 IT 운영자를 대상으로 하며, AI를 도구로 활용하여 시스템의 안정성과 효율성을 높이는 데 중점을 둡니다. - 도구와 플랫폼:
MLOps는 모델 학습 및 배포를 위한 도구와 프레임워크(MLOps 플랫폼, CI/CD 도구 등)를 사용하는 반면, AIOps는 시스템 모니터링, 데이터 분석, 자동화된 인시던트 대응을 위한 도구(AIOps 플랫폼, IT 서비스 관리 도구 등)를 사용합니다.
✓ MLOps에 대해 더 자세한 내용이 궁금하시다면, 아래 아티클을 참조하세요.
지금 바로 아하랩스 전문가 팀과 상의하세요!
아하랩스는 다년간 수많은 고객사의 글로벌 제조 현장에 직접 AI를 도입하고 실제 양산 라인에서 직접 기술 지원을 해온 풍부한 경험이 있습니다. 이를 통해 제조 현장에 AI를 도입하고자 할 때 발생할 수 있는 문제와 대응 방안에 대해 깊이 이해하고 있으며, 현장 상황에 따라 어떤 전략을 수립해야 하는지에 대한 전문성을 갖추게 되었죠.
2024년 하반기, 아하랩스는 한 발짝 또 앞서 나갑니다. 제조 현장의 다양한 설비로부터 데이터를 일괄 수집하고 분석할 수 있는 Data CAMP 솔루션과, 비지도 산업용 AI 학습/배포 플랫폼인 LISA의 기능이 모두 통합된 AIOps 플랫폼이 출시됩니다. 또한, 제조 현장에서 표면결함 검사, 설비 예지보전 등을 수행할 수 있는 자체 산업용 AI 모델을 경량화하고 NPU 칩 제조사와 협력하여 산업 현장에 온디바이스 AI를 저렴하면서도 효율적으로 도입/활용하기 위한 준비를 하고 있습니다.
제조 현장의 디지털 전환, AI 도입 전략을 고민하고 계신다면, 다양한 경력을 가진 제조 데이터 및 산업용 AI 전문가로 구성된 아하랩스 팀과 지금 바로 상의하세요!