2025-03-10 | 인사이트 리포트

AI 모델 성능을 극대화하는 아하랩스의 데이터셋 구축 노하우

Chloe Woo | Content Strategist

data labeling for ai development

AI 모델의 성능을 극대화하려면 “학습 데이터의 품질”이 핵심입니다. 아하랩스 팀은 고객과 긴밀히 협력하여 데이터를 구축하고, 정밀한 분석을 통해 최적의 모델을 개발하는 노하우를 갖추고 있습니다. 이번 아티클에서는 아하랩스가 데이터를 수집하고 가공하며, 학습 결과를 분석하여 모델의 성능을 극대화하는 방법을 소개합니다.

 

1. 데이터 수집 전략 – 다양한 데이터 확보를 통한 성능 향상

모델의 성능을 극대화하려면 데이터 수집 과정에서부터 신중한 전략이 필요한데요. 사실 학습 성능을 높이려면 사실 모델 학습 결과에 대한 분석이 가능해야 됩니다.

아하랩스는 단순히 데이터를 많이 모으는 것이 아니라, 모델이 학습하고 일반화할 수 있도록 최적의 데이터를 선별하고 수집하는 노하우 를 갖추고 있습니다. 이를 위해 다양한 케이스의 데이터를 확보하고, 특정한 문제를 해결할 수 있도록 데이터를 분석하여 보완합니다.

(1) 데이터 수집의 핵심 – 다양한 케이스 확보

AI 모델이 높은 성능을 발휘하려면 다양한 케이스의 데이터를 학습해야 합니다. 예를 들어, 강아지를 인식하는 모델 을 개발한다고 가정해 보겠습니다. 강아지의 얼굴이 포함된 이미지만 학습했다면, 다리만 있는 이미지를 보고 강아지인지 인식하지 못할 가능성이 큽니다. 마찬가지로, 찍힘 결함만 포함된 데이터를 학습한 모델은 긁힘 결함을 제대로 인식하지 못할 것입니다.

데이터 수집의 핵심 – 다양한 케이스 확보의 중요성을 보여주는 강아지 사진 예시

강아지의 얼굴이 포함된 이미지만 학습했다면, 다리만 있는 이미지를 보고 강아지인지 인식하지 못할 가능성이 큽니다. 마찬가지로, 찍힘 결함만 포함된 데이터를 학습한 모델은 긁힘 결함을 제대로 인식하지 못할 것입니다. Image Credit: AHHA Labs

(2) 엣지 케이스(Edge Case) 분석 – 적절한 데이터 추가로 모델 개선

데이터가 많다고 해서 무조건 좋은 모델이 나오는 것은 아닙니다. AI 연구자들 사이에서도 데이터가 많아도 학습이 제대로 이루어지지 않는다고 말하는 경우가 있는데, 이는 엣지 케이스(Edge Case) 문제 때문입니다.

  • 엣지 케이스란? : 극히 드물게 발생하는 특이한 데이터. 예를 들어, 1만 개의 데이터 중 단 1개만 존재하는 희귀한 결함

🚀아하랩스는 단순히 데이터를 많이 모으는 것이 아니라, 고객 현장에 맞춰 꼭 필요한 데이터를 선별하고 추가하여 모델이 실전에서도 높은 성능을 발휘할 수 있도록 지원합니다.

✅ 다양한 결함 유형(찍힘, 긁힘, 오염 등)을 포함한 데이터 구축
✅ 데이터 증강(Augmentation) 기법을 활용하여 데이터 다양성 확보
✅ 초기 학습 결과 분석을 토대로 엣지 케이스를 판별하여 데이터셋 구축 전략에 포함

 

2. 고품질 데이터셋 설계 전략

모델 학습과 평가 과정에서 고려해야 할 중요한 요소는 학습 데이터셋과 평가 데이터셋 간의 차이입니다.

(1) 객체 형태 차이 고려

객체의 형태가 모델의 예측 성능에 영향을 미칠 수 있습니다. 예를 들어, 학습 데이터에는 동그란 원형의 찍힘 결함만 포함되었지만 평가 데이터에는 길쭉한 타원형의 찍힘 결함이 포함될 경우, 모델이 타원형 찍힘을 인식하지 못할 가능성이 큽니다.

(2) 클래스 차이 고려

클래스도 유심히 고려해야 합니다. 예컨대, 학습 데이터에서 강아지의 얼굴만 학습했다면, 평가 데이터에서 강아지의 발을 보면 인식하지 못할 가능성이 큽니다. 평가 데이터에서 강아지의 발을 포함시키려면, 학습 데이터에도 강아지의 발 데이터를 추가해야 합니다. “설마 누가 이러겠어?” 라고 생각하기 쉽지만, 아하랩스 팀이 직면하는 산업 데이터에서 매우 빈번하게 일어나는 문제입니다. 예컨대, 찍힘이나 스크래치 등 결함 간의 차이를 육안으로 확실하게 구분하기 쉽지 않기 때문입니다.

모델 학습과 평가 과정에서 고려해야 할 중요한 요소는 학습 데이터셋과 평가 데이터셋 간의 차이입니다. 예컨대, 모델이 강아지 얼굴 이미지만 학습했다면, 평가 데이터에서 강아지 발을 보면 인식하지 못할 가능성이 큽니다. Image Credit: AHHA Labs

🚀아하랩스는 학습 데이터와 평가 데이터의 차이를 최소화해 고객이 원하는 AI 모델을 최적의 성능으로 제공할 수 있도록 지원합니다.

✅ 고객과 협력하여 실제 사용 환경을 반영한 데이터 구축
✅ 객체 크기, 형태, 위치, 배경 등의 차이를 분석하여 데이터셋 조정
✅ 이상탐지 모델의 경우, 정상 데이터의 다양성을 확보하여 오탐 방지

 

3. 데이터 라벨링 최적화 – 일관된 라벨링 기준을 통한 성능 향상

AI 모델의 성능을 높이는 가장 효과적인 방법은 사실 단순합니다. 데이터셋, 즉 라벨링 데이터를 잘 만들면 됩니다. 즉, 정확하고 일관된 데이터 라벨링이 중요합니다.

그런데 산업용 데이터에서는 동일한 유형의 결함이라도 사용자의 주관적인 판단이 들어가면서 라벨링 불일치가 자주 발생합니다. 예를 들어, 찍힘과 긁힘의 경계가 명확하지 않은 경우, 경미한 결함을 정상으로 판단할지 결함으로 판단할지 모호한 경우 등입니다.

🚀 아하랩스는 산업 데이터 및 AI 모델에 대한 풍부한 현장 경험을 바탕으로 고객과 협력하여 정확한 데이터 라벨링 가이드라인을 제공합니다.

✅ 정확한 라벨링 기준을 수립하여 불일치 최소화
✅ 객체가 겹쳐 있는 등 특이한 경우, 형태학적 분석을 통해 최적의 라벨링 설정
✅ 산업 환경에 맞는 커스텀 라벨링 가이드 제공

 

4. 학습 파라미터 조정 – 최적의 증강기법(Augmentation) 적용 전략

AI 모델의 성능을 높이기 위해서는 데이터 증강(Augmentation)을 효과적으로 적용하는 것이 중요합니다. 아하랩스는 다양한 증강 기법을 활용하여 모델이 다양한 환경에서도 높은 정확도를 유지할 수 있도록 지원합니다.

(1) 형태 변형

결함의 방향성을 학습시키는 데 유용합니다. 예를 들어, 스크래치가 위에서 아래로만 존재하는 데이터만 학습하면 오른쪽 위에서 왼쪽 아래로 긁힌 스크래치를 모델이 찾아내지 못할 수 있습니다. 이를 해결하기 위해 좌우 및 상하 반전(Flip) 을 적용하면 모델이 다양한 방향에서도 결함을 학습할 수 있습니다. 또한, Rotation(회전 변형) 을 적용하면 특정 각도에서만 결함을 학습하는 문제를 방지할 수 있습니다.

(2) 크기 변형

큰 크기의 강아지 데이터만 학습한 모델은 작은 강아지를 인식하지 못할 가능성이 있습니다. 예컨대, 420×420 이미지를 1024×1024로 리사이징을 해서 이 작은 강아지에 해당하는 픽셀이 더 많아지게 만들어주는 게 더 좋습니다.

(3) 밝기 및 대비 조정

현장의 조명 변화가 있거나 사람이나 로봇이 움직이면서 그림자가 생기는 문제가 있을 때는 이 영향을 최소화하기 위한 전략을 취해야 합니다. 학습 데이터셋의 밝기와 대비를 조정하면 조명 변화에 대한 모델의 내성을 강화할 수 있습니다.

강아지 이미지에 대한 다양한 augmentation

AI 모델의 성능을 높이기 위해서는 데이터 증강(Augmentation)을 효과적으로 적용하는 것이 중요합니다. 아하랩스는 다양한 증강 기법을 활용하여 모델이 다양한 환경에서도 높은 정확도를 유지할 수 있도록 지원합니다. Image Credit: AHHA Labs

🚀아하랩스는 고객의 실제 운영 환경을 고려하여 가장 적절한 어그멘테이션 기법을 적용 합니다.

✅ 어그멘테이션 기법을 무작위로 적용하는 것이 아니라, 평가 데이터를 면밀히 분석하여 필요한 기법을 선별
✅ 모델이 특정 패턴에만 치우쳐 학습되지 않도록 다양한 변형을 적용
✅ 산업 환경에서 발생할 수 있는 조명 변화, 객체 크기 차이 등을 반영한 데이터셋 구축

 

아하랩스와 함께 최적의 AI 모델을 구축하세요!

아하랩스는 고객과 협력하여 데이터를 수집하고, 분석하며, 모델을 최적화하는 노하우를 보유하고 있습니다. 데이터 구축부터 모델 성능 최적화까지, 모든 과정에서 고객의 요구를 반영하여 최고의 결과를 도출합니다. 고품질 데이터셋을 구축하고 AI 모델 성능을 최적화하고 싶다면, 아하랩스와 함께하세요!