2024-12-09 | 인사이트 리포트

[AIOps] AI 도입 성공 여부 가르는 모델 드리프트란?

Chloe Woo | Content Strategist

모델 드리프트, model drift

2023년 기준 국내 기업의 41%가 AI 기술을 이미 도입했거나 도입 중입니다. 제조업 분야도 다르지 않아서, 다양한 공정에서 AI 모델이 핵심적인 역할을 수행하고 있죠. 특히 제품 개발과 공정 효율화 제고를 목적으로 AI 기술을 활발히 적용하고 있습니다.

그런데 실제 현장을 들여다보면, AI를 도입하고 운영하는 데 어려움이 많습니다. 제조업 대부분이 AI를 도입할 때 “외부와의 협업을 통해 개발”(51.3%)하거나 “외부에 개발을 의뢰”(22.6%)하는데, AI는 한번 개발해서 도입했다고 끝이 아니라 꾸준한 유지보수가 필요하기 때문입니다.

기업 ai 도입 경로 조사 결과

AI 기술 도입경로는 ‘외부와의 협업을 통해 개발(37.7%)’의 응답이 가장 많았습니다. 자료 출처: SPRi 소프트웨어정책연구소 | 국내 인공지능AI 도입기업 현황 분석 및 시사점 2023.09.07

예를 들어, 시간이 흐르면서 대부분 ‘모델 드리프트’, 즉 성능 저하가 발생합니다. 그런데 기업 내부에 AI 전문 인력이 부족해 이에 대응하기가 쉽지 않습니다. 매번 외부 업체에 모델 성능을 다시 끌어올려달라고 의뢰하기에도 시간과 비용 낭비가 만만찮죠. AI 기술을 활용할 때의 어려움 1순위로 “내부 운용의 기술력 부족”이 꼽히는 이유입니다.

기업 ai 활용시 어려움

현재 AI 기술을 활용함에 있어서의 어려움은 ‘내부 운용의 기술력 부족(28.8%)’ 응답이 가장 많았습니다. 자료 출처: SPRi 소프트웨어정책연구소 | 국내 인공지능AI 도입기업 현황 분석 및 시사점 2023.09.07

이번 아티클에서는 AI 활용을 어렵게 만드는 ‘모델 드리프트’에 대해 알아보겠습니다. 이를 어떻게 해결해야 AI 투자 성과를 확실하게 얻을 수 있을까요?

모델 드리프트 개념

❗️모델 드리프트(Model Drift): 머신러닝 모델이 배포된 이후 시간이 지나면서 초기 상태에서 예측하던 성능을 유지하지 못하는 현상

모델 성능 저하, 왜 생길까?

(1) 데이터 분포의 변화(=데이터 드리프트)

입력 데이터가 변화하는 경우입니다. 운영 환경에서 수집된 데이터가 모델 훈련 당시 데이터와 다른 분포를 보이는 경우, 모델의 성능이 저하됩니다. 아래와 같은 다양한 이유로 입력 데이터 분포가 변할 수 있습니다.

  • 운영 조건의 변화: 제조 공정의 설정이 변경되거나 새로운 장비가 추가되면서 데이터의 특성이 달라진 경우
  • 새로운 공정 변수: 기존에 사용되지 않던 새로운 변수(신소재 도입 등)가 제조 프로세스에 영향을 준 경우
  • 시스템 노후화: 기계가 오래 사용되면서 데이터의 정확성이 감소하거나 노이즈가 증가한 경우

예시: 센서 데이터의 변화

– 상황: 한 공장에서 장비의 진동 데이터를 측정해 고장 가능성을 예측하는 AI 모델을 사용하고 있다고 가정해 보겠습니다. 초기에는 장비가 새것이었고, 센서가 고품질 데이터를 제공했죠. 하지만 시간이 지나면서 장비가 노후화되면서 진동 패턴이 변화하거나 센서에 노이즈가 추가될 수 있습니다.

– 영향: 실시간으로 들어오는 데이터의 분포가 AI 모델이 학습한 데이터와 달라지기 시작합니다. 즉, 이전에 본 적 없던 저품질(=노이즈가 많은) 데이터가 들어오기 시작하죠. 이 때문에 AI가 설비의 정상 작동 상태를 고장으로 판단하거나, 반대로 고장을 정상 상태로 인식할 가능성이 높아집니다.

– 결과: 이러한 데이터 드리프트는 모델의 예측 정확도를 낮추어, 유지 보수 시점을 놓치거나 불필요한 수리 비용을 발생시키는 등의 문제를 야기할 수 있습니다.

Success case of monitoring 'data drift' and performing predictive maintenance with a data quality index (DQI) model

광학 장비의 노후화로 인해 검사 이미지 데이터의 품질 저하가 나타날 수 있습니다. 이는 모델의 성능 저하(드리프트)로 이어집니다. Image Credit: AHHA Labs

✓ 검사 이미지 데이터의 드리프트를 감지하는 아하랩스 고유의 DQI 딥러닝 모델에 대해 자세히 알아보세요.

✓ DQI 모델을 활용해 생산 소재 변경으로 인한 검사 데이터 드리프트를 감지한 실제 성공사례를 읽어보세요.

(2) 컨셉 드리프트

컨셉 드리프트는 모델의 입력과 출력 간의 변화입니다. 모델이 예측하려는 목표 변수가 시간이 지남에 따라 변하는 경우에 발생하죠. 아래 예시로 보다 쉽게 설명드릴게요.

예시: 품질 관리 기준 변화

– 상황: 특정 제조 공장에서 AI 모델을 활용하여 제품의 결함 여부를 판별하고 있다고 가정해보죠. 초기에는 제품 표면의 미세한 긁힘이 결함으로 간주되지 않았지만, 시간이 지나면서 고객의 품질 요구가 강화되어 이제는 이러한 긁힘도 결함으로 간주합니다. 이 경우 입력 데이터 분포는 변화 없이 그대로지만, 입력과 출력(불량 판별) 간의 관계가 변했습니다.

– 영향: AI 모델은 기존 데이터에 기반해 긁힘이 없는 제품만 결함이 아니라고 판단했기 때문에, 변화된 기준을 충족하지 못합니다. 결과적으로 모델이 결함을 올바르게 예측하지 못하게 됩니다.

– 결과: 제조 공정에서 결함률을 잘못 판단하거나 잘못된 품질 관리 결정을 내리게 되어, 고객 만족도와 수익에 부정적인 영향을 미칠 수 있습니다.

[참고] 데이터 드리프트 vs. 컨셉 드리프트

주어진 공(입력 데이터)을 바닥에 놓인 바구니에 넣는(목표) 기계(AI 모델)가 있다고 가정해봅시다. 같은 무게의 공이 계속 주어지면, 바구니에 공을 넣을 확률이 100% 가깝게 유지됩니다. 그런데 갑자기 훨씬 무거운 공이 주어졌다면 어떨까요?(데이터 드리프트) 기계는 같은 힘으로 던지기 때문에 공이 바구니에 못 미쳐서 떨어지겠죠(모델 성능 저하). 이번엔 바닥에 놓인 바구니 대신, 높이 매달린 농구 골대로 바뀌었다면 어떨까요?(컨셉 드리프트) 이번에도 공을 골대 안에 넣기란 쉽지 않을 겁니다(모델 성능 저하). Image Credit: kDimensions

모델 드리프트를 해결하는 전략

(1) 데이터 드리프트 감지 자동화

입력 데이터의 품질이 떨어지면 모델 드리프트가 발생할 가능성이 높아집니다. 입력 데이터에서 이상치를 탐지하고 제거하여 데이터 품질을 유지하세요. 노이즈 제거, 중복 데이터 처리 등 데이터 전처리 과정을 자동화할 수 있는 시스템 구축도 유효한 전략이 될 수 있습니다.

머신러닝 파이프라인에 데이터 드리프트 감지 알고리즘을 통합하여 입력 데이터 변화를 자동으로 모니터링 할 수 있습니다. 데이터 드리프트가 특정 임계값을 초과하면 자동으로 알림을 보내는 경고 시스템을 구축하면, 더욱 빠른 대처가 가능합니다.

✓ 데이터 드리프트를 실시간으로 모니터링하고 특정 임계값 초과시 자동으로 알림을 보내는 아하랩스 고유의 DQI 모델에 대해 더 자세히 알아보세요.

(2) 모델 모니터링 및 테스트 자동화

운영 환경에서 모델이 예기치 않은 변화를 겪을 수 있습니다. 따라서 지속적인 모델 모니터링 역시 필수인데요. 예를 들어 정확도, 정밀도, 재현율 등 모델의 성능 지표를 정기적으로 기록하고 분석해야 합니다.

또한, 모델이 새로운 데이터와 환경에서 제대로 작동하는지 반복적으로 검증해야 합니다. 하지만 매번 수동으로 테스트 하는 것은 시간과 비용이 너무 많이 들게 되지요. 이 프로세스를 자동화하여 정확성과 효율성을 높여 나가야 합니다.

ai 도입 후 모델 드리프트를 해결하는 방법

(3) 근본 원인 분석

예기치 못한 모델 드리프트가 발생한 경우, 근본적인 원인을 파악하는 것이 중요합니다. 데이터 수집 과정, 모델 학습 과정의 로그 데이터를 분석해 이상 패턴을 파악하거나, 특정 피처(feature)나 변수의 변화가 모델 드리프트에 미친 영향을 분석하세요.

(4) 모델 재학습 및 업데이트

새로운 데이터 샘플을 주기적으로 확보하고, 주기적으로 신규 데이터 샘플을 모델에 입력해 학습시키고, 자동으로 성능을 평가하는 시스템을 구축하는 것이 좋습니다. 그렇지 않으면 어렵게 도입한 AI 모델이 곧 쓸모없어지고 말테니까요. 모델 버전을 관리하고, 새로운 모델과 기존 모델의 성능을 비교해 최적 모델을 선택해야 시간과 비용을 절약하면서 AI 모델을 지속 가능하게 운영할 수 있습니다.

운영 환경에서 모델 드리프트가 발견되면 가능한 한 빨리 모델을 업데이트해야 피해를 최소화할 수 있습니다. 데이터가 실시간으로 입력될 때마다 모델을 점진적으로 업데이트하는 시스템을 구축하세요. 제조 상황에 따라 새로운 모델을 소규모로 배포하여 성능을 검증한 뒤, 전체 환경에 반영하는 접근 방식을 선택할 수 있습니다.

(5) 통합 환경에서 관리

데이터, 모델, 성능 지표를 별도로 관리하면 복잡성이 증가하게 됩니다. 제조 현장의 양산 라인에서 AI를 현실적으로 지속 가능하게 운영하기 위해서는 관리 복잡도를 낮추는 것 또한 매우 중요한 요소입니다.

예를 들어, 머신러닝 개발/운영 자동화 플랫폼을 활용하면 데이터 처리, 모델 훈련, 배포, 모델 재학습 등을 통합 관리할 수 있습니다. 모델의 상태와 성능을 한눈에 확인할 수 있는 통합 대시보드를 구축하여 관리 효율성을 더욱 높일 수 있습니다.

AIOps 플랫폼으로 모델 드리프트를 빠르게 감지하고 해결하세요

이 모든 복잡한 과정의 대안이 될 만한 기술이 바로 AIOps(Artificial Intelligence for IT Operations)입니다. AIOps는 IT 운영에 AI 기술을 도입해 데이터를 분석하고 문제를 자동으로 해결하는 시스템을 뜻하는데요.

제조 환경에서 AIOps 플랫폼은 실시간 데이터/모델 모니터링, 지속적 재학습을 통한 문제 해결 자동화, 운영 효율성 개선, 예측 가능성 강화, IT 및 OT 부서의 협업 지원 등 다양한 긍정적인 영향을 미칩니다. 이를 통해 제조 공정의 안정성을 유지하고, 제품 품질을 높이며, 비용 절감을 실현할 수 있죠.

AIOps, MLOps

데이터 수집, AI 모델 생성 및 배포, 모델 드리프트 모니터링, 지속적 재학습 루프 개념도. Image Credit: AHHA Labs

아하랩스 팀은 그간 제조 현장에서 검증 받은 제조 빅데이터산업용 AI 개발 운영의 폭넓은 노하우를 집약한 AIOps 플랫폼 DAISY를 2025년 중 출시할 예정입니다. DAISY를 이용하면 자동화된 라벨링과 노코드 UI를 이용해 전문가처럼 산업용 AI 모델을 만들 수 있는데요. 비단 이뿐만 아니라, 풍부한 제조 현장 경험에서 비롯된 다양한 제조 맞춤 기능들이 지속적으로 업데이트 될 예정입니다.

데이터 및 환경 변화가 잦은 제조 현장에서 엣지 설비의 신규 데이터를 언제든 쉽고 빠르게 수집할 수 있으며, 입력 데이터를 자동으로 전처리하는 레시피를 통해 입력 데이터 자체의 품질을 높게 유지할 수 있습니다. 또한, AI 알고리즘 기반의 데이터 및 모델 드리프트 감지, 신규 데이터를 이용한 자동 재학습 기능 등이 추가될 예정입니다. 산업용 AI를 더 빠르게 양산 라인에 도입하고, 지속 가능한 운영을 실현할 수 있게 도와드립니다.

수 년간 고객사의 글로벌 제조 현장에서 이미 기반 기술력을 검증받은 아하랩스의 전문가 팀과 상의하세요.

아하랩스의 기존 솔루션을 활용한 품질검사 및 원격관제 성공사례를 더 자세히 알아보세요.

3단계 품질검사 파이프라인으로 타이어 원단의 불량 유무&위치&유형을 자동 검사한 사례

원격 시스템 구축으로 배터리 조립 설비의 관제 효율을 300% 높인 사례