2023-12-19 | 인사이트 리포트

수동 어노테이션의 한계를 극복하는 기술 4가지 -오토레이블링, 자기지도학습 등

수동 데이터 어노테이션의 한계를 극복하는 다양한 AI 기술이 제안되었습니다. 4가지 주요 기술의 개념과 장점을 소개합니다.

사람이 직접 하는 어노테이션은 많은 시간과 비용이 소요됩니다. 예를 들어, 대규모 이미지 인식 경진대회인 ILSVRC에 활용되는 ImageNet 데이터 구축의 경우 크라우드 소싱을 통해 약 4만9천여 명이 4년에 걸쳐 1400만 장의 이미지에 어노테이션 작업을 수행했죠. 의료 영상 같은 전문 영역일수록 어노테이션 비용은 크게 증가할 수밖에 없습니다.[1] 그래서 최근 이 같은 레이블링 과정을 보다 손쉽게 할 수 있는 AI 기술이 떠오르고 있습니다. 

 

1. 오토레이블링(Auto Labeling)

(1)개념

오토레이블링은 머신러닝 모델이 자동으로 데이터에 레이블을 부여하는 과정을 뜻합니다. 보통 다음과 같은 단계를 따르죠.

 

-사전 정의된 모델 사용: 사전에 훈련된 모델을 사용하여 데이터에 대한 레이블을 자동으로 생성합니다. 이 모델은 이미지 분류, 텍스트 분류, 음성 인식 등과 같은 작업에서 학습된 것일 수 있습니다.

-전이 학습(Transfer Learning): 오토레이블링에서는 종종 전이 학습을 활용합니다. 즉, 사전에 훈련된 모델의 일부 레이어나 특성을 가져와 새로운 작업에 맞게 조정합니다. 이렇게 함으로써 적은 양의 레이블된 데이터에서도 효과적인 모델을 만들 수 있습니다. (아래에 추가 설명된 내용을 참고하세요.)

-확률적인 예측: 모델은 입력 데이터에 대해 각 클래스에 속할 확률을 예측합니다. 가장 높은 확률을 갖는 클래스가 해당 데이터의 자동 레이블로 할당됩니다.

-피드백 및 보정: 자동으로 생성된 레이블을 사용하여 모델을 훈련시키고, 피드백을 통해 모델의 성능을 개선합니다. 수동으로 생성된 소량의 정확한 레이블을 사용하여 모델을 보정할 수도 있습니다.

-반복: 위 단계를 여러 번 반복하여 모델을 점진적으로 향상시킵니다. 더 많은 데이터와 피드백을 사용하여 모델의 정확도를 향상시키는 데 중점을 둡니다.

(2)장점과 유의할 점

오토 레이블링은 데이터 양이 많고 레이블을 생성하는 데 많은 비용이 소요되는 경우에 특히 유용합니다.

그러나 정확도와 신뢰성에 대한 주의가 필요하며, 모델의 결과를 검토하고 보정하는 프로세스가 중요하죠.

보통 이렇게 예측된 레이블을 준지도학습(Semi-supervised Learning) 등에 이용하거나 수동 레이블링을 더 쉽게 해주기 위한 용도로 사용합니다. 예컨대, 오토라벨링을 사용해 1인당 시간당 작업량을 7.64배 향상시켰다는 사례가 있습니다.[2]

📌아하랩스의 산업용AI LISA가 산업 현장의 데이터 부족 문제를 극복하는 방법을 알아보세요.

 

2. 능동적 학습(Active Learning)

(1)개념

액티브 러닝은 모델이 스스로 어떤 데이터를 학습에 활용할지 선택하는 방식입니다. 모델이 주어진 데이터 세트를 먼저 판단해 보고, 가장 판단하기 어려운 일부를 개발자에게 제시합니다. 그러면 개발자는 해당 데이터를 우선 레이블링하고, 모델은 새롭게 레이블링된 데이터를 포함하여 학습을 진행하죠. 이 과정을 반복하면서 모델의 성능을 높여 나갑니다. 딥러닝 모델이 판단하기 어려웠던 데이터를 먼저 레이블링 해주기 때문에 모델의 성능을 단시간 내에 높여줄 수 있습니다.

(2)오토레이블링과의 차이점

액티브 러닝은 오토레이블링과 비슷해 보이지만, 주요한 차이점이 있습니다. 모델이 데이터에 대해 갖는 확신이 다르다는 점이죠.

  ✔️오토레이블링 : 모델이 높은 확신을 갖는 데이터를 선별해서 자동으로 레이블링

  ✔️액티브 러닝 : 모델이 중요한 데이터를 선별(확신은 낮을 수 있음)해서 레이블링을 요청

두 가지 개념은 상호보완적이며, 액티브 러닝이 오토레이블링의 선행 과정으로서 다음과 같은 과정을 거치게 됩니다.

 

-초기 데이터를 사람이 레이블링 합니다.

-액티브 러닝을 활용해 학습에 필요한 중요한 데이터를 선별합니다.(액티브 러닝)

-모델이 높은 확신을 가질 수 있는 데이터에 대하여 레이블링 합니다.(오토레이블링)

-선별된 중요 데이터를 개발자에게 전송해서 레이블링을 요청합니다.(액티브 러닝)

-이 과정을 반복합니다.

 

3. 자기지도학습(Self-supervised learning)

(1)개념

자기지도학습(Self-supervised learning)은 데이터를 표현(Representation)하는 방법을 학습하는 것에 중점을 둡니다. 데이터의 특징이나 구조를 학습하는 것이죠.[3] 예를 들어, 이미지의 특징을 추출하는 모델이 있다고 할 때 입력 데이터의 한 부분이 다른 부분의 지도학습 데이터 역할을 하게 되면, 이것이 자기지도학습에 해당합니다.

(2)과정

-pretext task : 라벨링 없는 데이터들을 활용하여 정의된 새로운 문제를 의미합니다. 일부러 어떤 구실을 만들어 푸는 문제인 셈이죠. 입력된 데이터 내에서 타겟으로 쓰일만한 것을 스스로 정해 모델을 학습합니다. 자기지도학습을 설명한 대표적인 논문 <Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles>에서는 아래와 같이 호랑이 사진으로 만든 직소 퍼즐을 푸는 태스크를 활용했습니다.

호랑이 사진에서 타일을 추출해 퍼즐을 생성하고 이를 학습시켜 전이학습에 활용하는 기법

(a)이미지에서 타일 추출 (b)타일을 섞어서 퍼즐 생성 (c)퍼즐 해결. Image Credit : arXiv:1603.09246

-이렇게 학습한 모델을 다운스트림 태스크(downstream task : 최종적으로 해결하고자 하는 작업)에 전이(transfer)해서 활용합니다. 자기지도학습의 목적은 결국 이 다운스트림 태스크를 잘 푸는 것이기 때문에, 여기서의 성능으로 모델을 평가하게 됩니다.

호랑이 사진으로 만든 직소 퍼즐 문제로 사전학습을 완료한 뒤, 실제 풀고자 하는 태스크를 수행하는 모습. Image Credit : arXiv:1603.09246

(3)장점

자기지도학습을 활용하면 고비용에 해당하는 어노테이션 데이터를 절약할 수 있습니다. 특히, 아래 설명할 전이학습(Transfer Learning)에 활용할 사전 학습(pre-trained) 모델을 확보할 수 있다는 장점이 있습니다.

(4)활용

자기지도학습은 대표적으로 손상된 이미지를 복원하는 데 유용합니다. 이미지 조각 간의 상관관계를 사람이 일일이 지정하지 않아도 모델이 알아서 주변에 어울리는 것을 학습하죠. 주변부의 특징과 어울리는 이미지나 영상을 만드는 것도 가능합니다.[3]

 

4. 전이학습(Transfer Learning)

(1)개념

한 작업에서 학습한 지식(모델)을 다른 관련 작업에 활용하는 기법입니다. 미리 훈련된 모델의 일부 또는 전체를 가져와 새로운 작업에 적용함으로써 학습 속도와 성능을 향상시킬 수 있죠. 예를 들어, ‘이미지 분류’ 문제를 푸는 데 사용했던 딥러닝 네트워크를 다른 데이터셋이나 다른 문제에 적용해서 푸는 것을 의미합니다.

-사전학습(pretrained): ImageNet 같은 대량 데이터셋으로 이미 학습이 되어있는 모델을 사용합니다. 이를 ‘사전학습모델(pretrained model)’이라고 부릅니다.

-미세조정(fine-tuning): 이미 학습된 모델의 가중치를 미세하게 조정해서 새로운 목적에 맞게 모델을 학습시키는 과정입니다.

(2)장점

컴퓨터 비전 영역에서는 전이학습으로 수행된 모델들이 높은 성능을 보이고 있습니다. 신경망이 다양한 이미지의 보편적인 특징들을 학습했기 때문이죠. 레이블된 학습 데이터의 양, 어노테이션 과정 등을 절감할 수 있을 뿐만 아니라 컴퓨팅 파워까지도 절감할 수 있습니다. 덕분에 딥러닝 기반 이미지 인식에서 기본처럼 활용되고 있습니다.

또한, 전이학습을 활용하면 적은 데이터셋에 대해 학습할 때 오버피팅(과한 학습)도 예방할 수 있습니다. 오버피팅이란 샘플 데이터를 너무 미세한 부분까지 학습해서 이걸 판단하면 100% 정확도가 나오지만, 다른 데이터를 넣었을 때 정확도가 급격히 떨어지는 문제를 말합니다. 데이터 수에 비해 모델의 가중치 수가 많으면 이런 현상이 발생하기도 합니다. 그러나 전이 학습을 이용해 신경망의 마지막 레이어만 학습하게 한다면, 학습할 가중치가 줄어들어 오버피팅이 예방될 수 있습니다.

 

(3)고도화 동향

최근에 자기지도학습, Auto ML 기술 등이 고도화되고 이를 적용한 사전학습모델 자체의 성능도 고도화되면서 전이학습을 다양한 태스크에 적용할 수 있게 됐습니다. 전이학습의 성능을 더 높이기 위한 조건 등도 다양하게 연구되고 있고요. 이를 통해 제조분야의 비전 검사, 의료 영상 등 전문 도메인에 특화된 사전학습 모델들이 개발되고 있습니다.[1]