2024-10-16 | 인사이트 리포트

“기계도 사람처럼 봅니다” – 대규모 비전 모델(LVM)

Chloe Woo | Content Strategist

eye computer vision

사람의 모든 감각수용기의 70%가 눈에 있다는 사실을 아시나요? 시각이 다른 감각보다 생존에 더 큰 영향을 준다는 뜻일 겁니다. 이 사실을 고려했을 때, 사람이 기계와 원활하게 상호작용하려면 사람이 보는 것을 기계도 똑같이 보고 판단할 수 있어야 한다는 생각을 해볼 수 있습니다.

이를 가능케 하는 기술이 바로 ‘대규모 비전 모델(LVM; Large Vision Model)’입니다.

이번 아티클에서는 LVM의 정의와 특징을 알아봅니다. 그리고 이어지는 아티클에서 최근 중요도가 높아지고 있는 ‘도메인 특화 LVM’ 및 산업별 응용 예시에 대해 알아봅니다.

대규모 비전 모델(LVM)이란?

LVM은 이미지나 비디오 등 시각 정보를 처리하는 대규모 AI 시스템입니다. 대규모 언어 모델(LLM)의 시각 버전이라고 할 수 있죠.

기존에도 이미지와 영상을 처리하는 다양한 알고리즘이 존재했습니다. 그러나 LVM은 수 억 개 이상의 파라미터를 가진 인공신경망 기반의 딥러닝 모델(Deep Neural Network)입니다.

대규모 데이터셋을 학습했기 때문에 인간의 시각적 인지 능력과 유사한 작업을 수행할 수 있는데요. 실제로 이미지 인식, 객체 탐지, 분류 등의 작업에서 기존 방법론을 뛰어넘는 성과를 내고 있습니다.

영상 데이터를 학습해 산업용 AI 모델을 생성하고 평가하며, 제조 현장의 다양한 이상상황을 실시간으로 감지

다양한 LVM 모델 예시

2020년, 첫 LVM 비전 트랜스포머를 시작으로 지금까지 다양한 LVM이 개발되었습니다.

(1) 비전 트랜스포머(ViT; Vision Transformer)

구글이 개발한 ViT는 트랜스포머 아키텍처를 컴퓨터 비전에 적용한 최초의 모델입니다. 이미지를 처리하는 방식이 기존의 합성곱 신경망(CNN; Convolutional Neural Network)과는 다른데요.

CNN은 각 레이어에서 작은 필터(커널)를 사용해 이미지의 국소적 패턴을 인식하고, 더 깊은 층으로 가면서 점차 더 복잡한 패턴을 학습합니다.

반면, ViT는 이미지를 여러 패치(patch)로 나누고, *트랜스포머 아키텍처의 셀프 어텐션(Self-Attention) 메커니즘을 통해 텍스트에서 토큰을 다루듯이 각 패치를 처리합니다.

CNN과 달리 모든 패치가 서로 상호작용하는 방식으로 전역적인 패턴을 한 번에 처리할 수 있죠. 특히 자원이 충분한 환경에서는 CNN 기반 모델을 능가할 수 있다고 알려져 있습니다.

  • 트랜스포머 아키텍처의 ‘셀프 어텐션’ : 병렬처리를 통해 하나의 단어를 문장의 모든 단어와 비교하는 방식입니다. 즉, 입력이 아무리 길어도 중요한 모든 부분에 주의(Attention)를 기울일 수 있게 만든 것이죠. 단어들 간의 관계를 아주 잘 파악해 냅니다. 순서에 맞게 직렬처리하는 순환신경망(RNN; Recurrent Neural Network)의 한계를 극복하기 위해 만들어졌습니다.

ViT 개략도

Vision Transformer는 입력 이미지를 일련의 패치로 처리하는데, 이는 자연어 처리 (NLP) Transformer가 생성한 단어 임베딩과 유사합니다. (MLP는 Multi Layer Perceptron으로 이미지 분류기 역할을 합니다.) Image Credit: https://research.google/blog/transformers-for-image-recognition-at-scale/

 

(2) Swin 트랜스포머(Shifted Window Transformer)

ViT의 한계를 보완한 모델입니다. 이미지 내 로컬 정보를 더 잘 처리할 수 있도록 설계됐죠.

ViT는 이미지 전체를 한 번에 처리하지만, Swin 트랜스포머는 이미지를 여러 윈도(window)로 나누고, 각 윈도 내에서만 연산을 수행합니다. 고해상도 이미지를 처리할 때 메모리와 연산 자원을 절약하는 데 유리합니다.

특히 객체 탐지(object detection)와 분할(segmentation)에 탁월한 성능을 보입니다.

Swin overview

Swin 트랜스포머는 이미지를 패치로 나누고, 네트워크가 깊어질수록 패치를 합쳐서 사용하는 방식입니다. 반면 기존의 ViT에서는 패치의 크기가 고정되어 있습니다. Image Credit: https://arxiv.org/abs/2103.14030

 

(3) CLIP(Contrastive Language-Image Pretraining)

OpenAI에서 개발한 모델로, 이미지와 텍스트 간의 연관성을 학습하는 멀티모달 모델입니다. 이미지와 텍스트를 각각 임베딩한 뒤, 서로의 의미를 매칭합니다. 즉, 이미지와 텍스트가 제대로 일치하는지 맞춰보는 대비 학습(Contrastive Learning)을 합니다.

CLIP 모델은 인터넷에서 수집된 대규모 이미지-텍스트 쌍을 학습했습니다. 이를 통해 일반화 능력을 크게 향상시켰죠. 텍스트 후보 몇 개를 주고 이미지와 함께 물어보면, 해당 이미지와 가장 잘 맞는 텍스트를 골라줍니다.

미리 정의된 클래스 없이도, 자연어를 활용해 자유롭게 이미지 인식 작업을 수행할 수 있습니다.

clip model overview

CLIP은 이미지 인코더와 텍스트 인코더를 사전 학습해, 데이터 세트의 어떤 이미지가 어떤 텍스트와 페어링되는지 인식합니다. 그런 다음 주어진 이미지와 가장 잘 페어링 되는 캡션의 클래스를 예측합니다. Image Credit: https://openai.com/index/clip/

 

(4) DINO(Self-Distillation with No Labels)

이름에서 알 수 있듯, 라벨이 없는 데이터에서 유의미한 패턴을 학습하는 모델입니다. Facebook AI Research(FAIR)가 개발했고, 자기지도학습(Self-supervised Learning)을 하죠.

DINO는 비전 트랜스포머(ViT)를 기반으로 하고 있습니다. 이미지의 특성을 지도(feature map) 형태로 추출해, 특정 객체나 부분을 자동으로 구분합니다. 객체 간의 관계를 분석하는 데 유용합니다.

DINO research

ViT 기반 비지도학습 방식의 DINO 모델이 지도학습 방식의 다른 모델과 비교해 이미지 내 객체를 더 정교하게 추출한 실험 결과 이미지. Image Credit: https://arxiv.org/pdf/2104.14294

 

(5) SAM(Segment Anything Model)

메타(Meta)에서 개발한 이미지 분할 모델입니다. 이미지 내 모든 객체를 픽셀 단위로 자동 분할해냅니다. 즉, 각 픽셀이 어떤 물체에 속하는지 분류하는 작업을 하는 거죠.

사전 학습된 대규모 모델로, 여러 도메인에서 바로 사용할 수 있다는 장점이 있습니다.

SAM segment anything model

SAM이 상자 안의 모든 과일을 자동 분할해 준 이미지. Image Credit: Meta

 

(6) SegGPT(Segment Everything with a Generalist Painter)

Painter라는 아키텍처에 기반해 이미지를 분할해주는 모델입니다. 주어진 태스크에 대한 설명이나 예시를 통해 어떤 태스크를 수행해야 하는지 유추해냅니다(In-context Learning). 한 가지 모델로 다양한 분할 작업을 수행할 수 있다는 장점이 있습니다.

segGPT_painter

SegGPT의 기반이 되는 Painter 모델의 작업 예시. 왼쪽 Task prompts에 제공된 예시를 통해 모델이 수행해야 할 태스크를 알아서 이해합니다. 그리고나서 입력된 이미지를 같은 방식으로 분할한 결과를 보여주고 있습니다. Image Credit: https://arxiv.org/pdf/2212.02499

결론

아하랩스 팀은 특히 다양한 제조업에서 다수의 비전 태스크를 성공적으로 수행한 경험을 보유하고 있습니다.

특히 산업 기반의 데이터를 풍부하게 확보해 두어서, LVM 도입에 차별화되는 경쟁력을 지니고 있습니다.

지금까지 여러 산업 현장에서 파일럿 프로젝트를 진행했는데요. 이후, 양산에의 도입률이 65% 이상입니다. 이처럼 높은 성공률을 기반으로 신뢰받는 파트너로 자리매김했습니다.

아하랩스 팀은 제조업의 다양한 비전 과제를 해결하며 쌓아온 기술적 역량과 경험을 바탕으로 고객의 요구에 맞춘 최적의 솔루션을 제공할 수 있습니다.

지금 더 나은 성과를 만들어보세요.

>>다음 아티클에서 최근 중요도가 높아지고 있는 도메인 특화 LVM에 대해 알아보세요.

아하랩스 팀이 수행한 다양한 비전 태스크 성공 사례를 더 읽어보세요. 

이상탐지(Anomaly Detection) 딥러닝 모델을 활용해 정상 데이터만으로 검사 자동화 도입

AI 모델 간 Pipeline 구성으로 로봇 파지의 이상작동 감지에 성공한 사례