멀티모달 대형비전언어모델(LVLM)을 활용한 산업용 이상감지 사례
멀티모달 트렌드
혹시 코를 막고 양파를 먹는 실험에 대해 아시나요? 실험에 참가한 많은 사람들이 본인이 먹고 있는 것이 양파인지 알아채지 못했을 뿐만 아니라, 심지어 사과를 먹고 있는 것 같다고 답한 사람도 있었습니다. 혀로 느껴지는 화학적인 맛(미각)과 식감(촉각), 그리고 냄새(후각) 정보가 모두 있어야 종합적인 음식의 맛을 느낄 수 있다는 것이 실험의 요지였죠.
너무 당연한 말이지만, 인공지능 역시 다양한 정보가 들어가야 더 정확한 결과를 낼 수 있습니다. 서로 다른 형태의 데이터를 동시에 이해하고 처리할 수 있는 능력인 ‘멀티모달(Multi-Modal)’이 최근 인공지능 업계 트렌드로 떠오른 이유죠. 서로 다른 데이터 유형을 결합하여 인공지능 네트워크의 성능을 더욱 향상시키고, 이를 통해 궁극적으로 더 정확한 결과를 도출하고자 하는 것이 목표입니다.
실제로 최근 산업 도메인의 비전 작업은 단일 유형의 데이터(즉, 이미지)만을 처리하는 방식에서 벗어나 텍스트와 이미지를 동시에 처리하는 멀티모달로 이동하고 있습니다. 이런 모델을 대형비전언어모델(LVLM; Large Vision Language Model)이라고 부르는데요.
예를 들어 이미지를 보고 그에 대한 설명을 생성하거나, 사용자가 이미지에 대해 질문을 하면 LVLM이 이미지를 이해하고 질문에 대한 답변을 제공합니다. 또, 텍스트를 입력해 관련 이미지를 검색하거나, 반대로 이미지를 입력해 관련한 텍스트 정보를 찾을 수도 있습니다.
이번 아티클에서는 LVLM을 활용한 산업용 이상감지 연구사례를 살펴보겠습니다.
대형비전언어모델(LVLM; Large Vision Language Model)을 활용한 산업용 이상감지 사례
[AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models]
지난해 중국과학원(CAS) 기초모델연구센터, 우한 AI연구소 그리고 AI기업 오브젝트아이 등이 참여한 공동연구팀은 LVLM을 이용한 새로운 산업용 이상감지(Anomaly Detection) 애플리케이션 ‘AnomalyGPT’를 제안했습니다.
(1) 기존의 한계
연구팀은 지금까지 나온 LVLM인 MiniGPT-4와 LLaVA가 이미지를 이해하고 다양한 시각 작업에서 뛰어난 성능을 보여주었지만, 특정 도메인 지식이 부족하고 이미지 국소부분의 세부 사항을 이해하는 능력이 떨어져 산업도메인에서 이상감지를 하기에는 효과적이지 못하다고 봤습니다.
한편, 기존 산업용 이상감지 방법론 대부분이 이상 스코어만 제공할뿐 정상과 비정상의 경계를 가르는 임계값(Threshold)을 사람이 수동으로 설정해야 한다는 한계가 있다고 봤습니다.
(2) 아키텍처
연구팀은 먼저 NG 이미지와 각 이미지에 대한 텍스트 설명을 생성해 학습 데이터를 만들었습니다. 또, 이미지 디코더를 적용해 이미지의 각 부분을 세밀하게 이해할 수 있게 하고, 텍스트 입력을 벡터 형식으로 변환하는 프롬프트 임베딩을 활용하여 LVLM을 미세 조정할 수 있는 프롬프트 학습기를 설계했습니다.
(3) 기능
논문에 따르면, 이렇게 개발된 AnomalyGPT는 사람이 임계값을 조정하지 않아도 스스로 이상치가 존재하는지 여부와 그 위치를 알아냈습니다.
사용자와 모델이 여러 번 질의응답을 주고받을 수 있는 ‘멀티턴(multi-turn)’ 기능도 지원하는데요. 이 기능이 중요한 건 이전 대화의 맥락을 기억하면서 응답을 생성한다는 점 때문입니다. 챗GPT도 이를 통해 보다 유용한 답을 주곤 하는데요. 이를 산업 도메인에서 활용하면 특정 도메인의 아주 복잡한 문제도 반복적인 대화를 통해 단계별로 해결할 수 있음을 시사합니다.
AnomalyGPT는 또한, 몇 개의 제한된 샘플 데이터만으로도 맥락 기반의 학습이 가능함을 보여주었다고 합니다(Few-Shot In-Context Learning).
(4) 성능
연구팀은 AnomalyGPT를 산업 환경에서 결함 감지를 목적으로 만들어진 데이터셋인 MVTec-AD을 이용해 단 한 번의 학습으로 최고 성능을 낼 수 있음을 입증했습니다. 실험 결과, 86.1%의 정확도(모델 예측 값과 실제 값이 일치하는 정도)로 결함을 예측했으며, 이미지 전체에서 결함 유무를 얼마나 잘 분류하는지 평가하는 지표는 94.1%를, 이미지 내에서 결함이 있는 픽셀을 얼마나 잘 찾아내는지 평가하는 지표는 95.3%를 달성했습니다.
LVLM의 가능성
앞으로 연구가 거듭되며 더욱 다양한 형태의 데이터를 이해할 수 있고 예측 성능도 더 높은 멀티모달 LLM이 등장할 것으로 기대됩니다. 요컨대, 앞서 소개한 AnomalyGPT와 같은 멀티모달 LLM을 활용하면 산업 현장에서 보다 많은 작업을 자동화할 수 있고, AI에 대한 지식이 없는 공정 전문가도 마치 사람과 일하듯 AI와 함께 일할 수 있게 될 것입니다.
예컨대 현재 제조 현장에서 사용되고 있는 AI 기반 비전 검사는 이미지 혹은 영상 등 단일 데이터만 이해하고 결함과 이상을 검출할 수 있는 데 비해, 멀티모달 LLM은 마치 진짜 사람처럼 산업 현장에서 나오는 이미지, 영상, 텍스트, 기계 코드, 센서 데이터, 계측값 등 다양한 형태의 데이터를 종합적으로 이해하고, 사람이 묻는 질문에 자연어로 답할 수 있기 때문입니다. 제품 이미지와 스펙 설명 텍스트를 비교해서 불일치를 감지하고, 복잡한 문제에 대해 사람과 챗봇이 대화를 나누며 해결 방안을 찾는 식으로요.
아하랩스가 어떻게 도울 수 있나요?
제조 빅데이터 및 산업용 AI 전문기업인 아하랩스는 제조 데이터 수집과 전처리, 데이터 분석, 공정 모니터링, 산업용 AI를 활용한 품질관리 및 설비 이상감지, 예측 유지보수 영역에서 수많은 성공사례를 만들어 나가고 있습니다. 빅데이터 통합 관리 플랫폼 Data CAMP는 2020년 첫 도입 이래 4년 간 수십 개 라인에서 운영되는 동안 애플리케이션이 오류를 내고 중단된 사례가 한 번도 없었습니다. Data CAMP와 산업용 AI 플랫폼 LISA를 결합하여 막강한 유용성을 입증하고 있으며, 덕분에 PoC 이후 양산 도입률이 글로벌 평균 16%를 훨씬 상회하는 80%에 육박합니다.
무엇보다 중요한 것은, 아하랩스 팀은 이러한 다년 간의 경험을 통해 제조 도메인 특화 지식과 실제 제조 현장에서 AI 애플리케이션을 안정적으로 운영하는 데 필요한 노하우를 풍부하게 갖추게 됐다는 점입니다.
이는 향후 멀티모달 LLM을 설계하는 데에도 매우 중요할 것으로 보입니다. 제조 도메인 지식이 있으면 모델이 제조 과정에서 발생하는 다양한 데이터(예: 센서 데이터, 기계 로그, 품질 검사 데이터 등)를 더 정확하게 처리하고 해석하도록 설계할 수 있고, 이를 통해 모델의 예측 정확도와 신뢰성을 높일 수 있죠.
그리고 제조업에는 공정 최적화, 결함 감지, 예지보전 등 특정한 문제가 있는데요. 제조 도메인 지식과 경험이 있어야 이러한 문제들을 효과적으로 해결하는 방법을 모델에 통합할 수 있습니다. 도메인 지식이 부족하면 모델이 실제 현장에서 발생하는 문제를 잘 이해하지 못할 수도 있고요.
또한, 최종 사용자가 필요로 하는 기능과 요구사항을 더 잘 이해함으로써 실제 공장 라인 내 사용자가 쉽게 사용할 수 있는, 실제 사용 환경에 적합한 기능을 제공할 수 있습니다.
지금 바로 아하랩스에 문의주세요.