산업 전반에 결합하고 있는 생성형AI (1)편 – 개념, 동향

2023-11-17

merlin_212276709_3104aef5-3dc4-4288-bb44-9e5624db0b37-superJumbo

생성형AI에 대한 관심이 식을 줄 모르고 계속되고 있습니다. 2022년 11월 등장한 챗GPT 열풍이 바야흐로 생성형AI 시대를 연 것이죠. 생성형AI란 무엇이고, 제조 분야에 미칠 영향력은 어떤 모습일까요?

생성형AI(Generative AI)란?

(1) 개념

생성형AI는 주어진 데이터를 기반으로 새로운 콘텐츠를 출력하는 능력을 가진 인공지능의 한 유형입니다. 이러한 AI 시스템은 자연어 처리, 이미지 생성, 음성 생성 등 다양한 분야에서 활용될 수 있으며, 기존 데이터나 규칙에 의존하지 않고 창의적이고 다양한 결과물을 생성할 수 있습니다. 앞의 두 문장도 대표적인 생성형 인공지능인 챗GPT로 만든 결과물이죠.

생성형AI는 머신러닝 모델을 사용해서 사람이 만든 기존 콘텐츠의 패턴을 학습합니다. 그런데 기존 머신러닝 모델이 학습한 패턴을 기반으로 예측된 결과를 내놓았다면, 생성형AI는 여기서 한걸음 더 나아갑니다. 입력된 데이터의 속성을 모방하는 새로운 데이터, 즉 새로운 콘텐츠를 생성합니다.

(2) 원리

생성형 모델은 고차원의 데이터가 저차원의 ‘잠재 변수(latent variable)’에 의해 생성된다고 가정합니다. 예를 들어, 얼굴이 그려지려면 성별, 나이, 피부색, 머리 스타일, 표정 같은 겉모습 뿐만 아니라 배경, 바람, 빛 등 주변 상황도 고려해야 하는데요. 이렇게 사물과 상황의 모습을 결정하는 조건을 잠재 변수라고 합니다. 생성형 모델은 데이터 학습을 통해 이런 잠재 변수의 확률분포를 추정합니다. 그리고 나면, 본래 데이터와 같은 확률적 특성을 갖는 새로운 데이터를 임의로 생성할 수 있게 됩니다.

생성형AI 모델의 종류

생성형AI는 기본적으로 머신러닝의 하위 범주인 딥러닝으로 구성됩니다. 딥러닝이란 인간 두뇌의 뉴런을 모방해 상호 연결된 수많은 계층으로 구성된 알고리즘이고요. 생성형AI의 초석은 같지만, 세부적으로는 다양한 종류가 존재합니다. 각각 고유한 특성이 있으며, 서로 다른 응용 분야에 적합합니다. 대표적으로 알려진 세 가지를 소개하겠습니다.

(1) 대규모 언어 모델(LLM, Large Language Model)

LLM은 방대한 텍스트 데이터를 학습하는 생성형AI 모델입니다. 챗GPT(Generative Pretrained Transformer)가 대표적이죠. 트랜스포머(Transformer) 아키텍처를 활용해 주어진 프롬프트(사용자가 언어 모델에 입력한 것)를 이해하고 답변을 생성합니다. 트랜스포머는 딥러닝 인공신경망 중 하나로, 순환신경망(RNN)의 한계를 극복하기 위해 만들어졌습니다.

더 자세히 설명하자면 다음과 같습니다. RNN은 직렬처리로 순서에 맞게 학습하는 특징이 있습니다. 가령 왼쪽에서 오른쪽으로, 정해진 방향대로 언어를 처리하죠. 이 때문에 단어의 거리가 멀수록 관계를 잘 파악하지 못해 오역이 자주 발생했습니다. 반면 트랜스포머는 ‘셀프 어텐션(Self-Attention)’이라 불리는 방식을 사용합니다. 병렬처리를 통해 하나의 단어를 문장의 다른 모든 단어와 비교하는 방식인데요. 단어들 간의 관계를 아주 잘 파악해 냅니다. 즉, 입력이 아무리 길어도 중요한 모든 부분에 주의(Attention)를 기울일 수 있게 만든 것이죠.

트랜스포머는 구글의 2017년 논문(Attention Is All You Need)[1]에서 처음 소개됐는데요. 미국 스탠퍼드대 연구팀은 2021년 8월에 발표한 논문에서 트랜스포머를 ‘기반 모델(foundation model)’로 칭했습니다[2]. 트랜스포머가 AI의 패러다임 변화를 견인하고 있다고 봤기 때문입니다.

생성형AI 알고리즘 가운데 대규모 언어 모델 트랜스포머 아키텍처의 원리를 설명하는 그림

RNN은 직렬처리로 순서에 맞게 학습합니다. 이 때문에 단어의 거리가 멀수록 관계를 잘 파악하지 못합니다. 반면 트랜스포머는 ‘셀프 어텐션(Self-Attention)’이라 불리는 방식을 사용합니다. 병렬처리를 통해 하나의 단어를 문장의 다른 모든 단어와 비교합니다. 단어들 간의 관계를 아주 잘 파악해 냅니다. – 이미지 출처: 아하랩스

(2) 생성형 적대 신경망(GAN, Generative Adversarial Networks)

GAN은 생성기(Generator)와 판별기(Discriminator)라는 두 가지 신경망으로 구성됩니다. 생성기는 새로운 데이터를 만들어내고, 판별기는 이 데이터의 진위 여부를 평가하죠. 두 신경망이 콘텐츠의 품질을 향상하기 위해 서로 경쟁하는 셈입니다.

과정은 이렇습니다. 먼저 진짜 데이터를 가지고 판별기를 학습시킵니다. 판별기는 훈련 데이터의 분포를 얻습니다. 이번엔 노이즈를 가미해 생성기에서 가짜 데이터를 만들어냅니다. 처음에는 한 눈에 봐도 가짜라는 걸 알 수 있을 정도로 품질이 낮은 데이터가 나옵니다. 판별기는 이를 가짜라고 구별하겠죠. 그런 뒤 오차를 고려해 생성기는 조금 더 진짜와 가까운 데이터를 만들어냅니다. 이를 반복해 학습 데이터 분포를 따라갑니다. 그 결과 매우 사실적인 데이터를 생성하는 데 능숙해집니다.

GAN에서 생성기는 새로운 데이터를 만들어내고, 판별기는 이 데이터의 진위 여부를 평가합니다. 두 신경망이 콘텐츠의 품질을 향상하기 위해 서로 경쟁하는 셈입니다. – 이미지 출처: 아하랩스

(3) 변이형 오토인코더(VAE, Variational Autoencoder)

원본 데이터를 목적에 맞는 잠재변수로 추론하는 과정을 인코딩, 이렇게 부호화된 데이터를 다시 원본 데이터 형태로 복원하는 과정을 디코딩이라고 부릅니다. 이렇게 인코더와 디코더로 이뤄진 신경망을 ‘오토인코더’라고 합니다.

원본 데이터를 목적에 맞는 잠재변수로 추론하는 과정을 인코딩, 이렇게 부호화된 데이터를 다시 원본 데이터 형태로 복원하는 과정을 디코딩이라고 부릅니다. 이렇게 인코더와 디코더로 이뤄진 신경망을 ‘오토인코더’라고 합니다. – 이미지 출처: Jeremy Jordan 이미지 재구성, 아하랩스

여기서 한걸음 더 나아간 ‘변이형 오토인코더’는 확률 및 생성 개념이 추가로 활용되는 알고리즘입니다. 기본 오토인코더는 각 잠재변수에 대해 하나의 값을 출력하지만, 변이형 오토인코더는 각 잠재변수에 대한 확률분포를 출력합니다. 그리고 이로부터 잠재변수 값을 랜덤하게 뽑은 뒤, 이를 토대로 디코더(생성기)가 보통처럼 디코딩 합니다. 디코더에서 완전히 새로운 데이터를 생성하기 위해 개발된 모델입니다.

기본 오토인코더는 각 잠재변수에 대해 하나의 값을 출력하지만, 변이형 오토인코더는 각 잠재변수에 대한 확률분포를 출력합니다. 그리고 이로부터 잠재변수 값을 랜덤하게 뽑은 뒤 디코딩 합니다. – 이미지 출처: Jeremy Jordan 이미지 재구성, 아하랩스

2024년, 새로운 개념의 결함 이미지 생성 기능을 만나보세요

더 알아보기

동향 : 출시부터 진화까지

2022년부터 기업들이 경쟁적으로 생성형AI 서비스를 출시하면서 연구 영역에 머물던 생성형AI가 본격적으로 산업 영역에서 확장되기 시작했습니다.

(1) 생성형AI의 부상

2022년 상반기부터 주로 텍스트를 이미지로 변환해주는 서비스가 출시되었습니다. OpenAI의 달리2(DALL•E2), 구글의 이마젠(Imagen), 미드저니(Midjourney) 등입니다. 특히 2022년 8월 스태빌리티AI가 스테이블 디퓨전(Stable Diffusion)을 오픈소스 라이선스로 배포하면서 경쟁이 본격 심화되었죠. 그리고 2022년 11월, OpenAI의 LLM 기반 인공지능 챗봇 서비스인 챗GTP가 출시되었습니다. 챗GPT는 두 달 만에 월 이용자 1억 명을 돌파하면서 생성형AI의 대중화 가능성을 보여주었습니다.

(2) 검색 시장 판도 변화

마이크로소프트는 생성형AI를 이용해 구글 독점이었던 검색 시장에 도전장을 내밀었습니다. 자사 검색엔진 빙(Bing)에 GPT-4를 결합해 엣지 브라우저를 통해 제공한 것이죠. 구글은 이에 대응하여 구글 바드(Bard)를 출시했고요. 과거 검색 시장은 ‘정확한 검색’이 가장 중요했는데요, 이제 생성형AI와 결합되어 ‘신뢰할 만한 생성 정보’를 제공한다는 새로운 패러다임으로 전환하고 있습니다.

(3)챗봇에서플랫폼으로 진화[3]

2023년 3월에는 OpenAI의 플러그인이 출시됐습니다. 플러그인은 외부 서비스와 연결하는 ‘서드 파티(Third-party)’ 유형과 ‘자체 제공 서비스’로 나뉩니다. 특히 서드 파티 유형은 내외부 혁신을 끌어들이는 생태계 구축에 유리합니다. 하나의 태스크를 완료하기 위해 여러 플랫폼을 거쳐 수행해야 했던 작업을 이제는 챗GPT 안에서 모두 수행할 수 있게 됐죠. 즉, 여러 서비스를 연결하는 하나의 ‘플랫폼’으로 진화한 것입니다. 챗GPT의 출현이 2007년 ‘아이폰 모멘텀’에 비교됐다면, 챗GPT 플러그인 생태계는 AI 시대의 ‘앱스토어’로 비유할 수 있습니다.[4]

(4) 누구나맞춤 GPT제작 및 판매

오픈AI는 2023년 11월 6일, ‘GPT-4 터보’를 공개했습니다. 이 버전은 최신 데이터를 기반으로 학습됐고, 책 3000페이지 분량을 단일 프롬프트로에서 처리할 수 있습니다. 게다가 이미지를 이해해 설명하고 오디오를 생성하기까지 합니다.

특히 주목할 만한 점은 누구나 개인 맞춤형 챗GPT를 만들 수 있다는 것입니다. 바로 ‘GPT 빌더’입니다. 코딩을 전혀 몰라도 대화와 업로드 방식으로 누구나 특정 작업에 맞는 인공지능 비서를 만들 수 있습니다. 월 20달러 유료 서비스인 ‘챗GPT 플러스’ 사용자만 이용할 수 있는데요.[5] GPT모델을 누구나 쉽게 사고 팔 수 있게 하는 마켓 플레이스인 ‘GPT 스토어’에 대한 구상도 나왔습니다. 오픈AI의 CEO 샘 올트먼은 “장기적으로 특정 모델에 대해서 사람들이 많이 구매하면 인센티브를 주는 ‘매출 분배’를 계획하고 있다”고 소개했습니다.[6]

뜨거운 감자, 생성형AI의 저작권 침해 문제

실제로 LLM 개발사를 상대로 한 작가들의 저작권 침해 소송이 증가하고 있습니다. ‘캐벌리어와 클레이의 놀라운 모험’으로 2001년 퓰리처상을 받은 작가 마이클 샤본 등은 2023년 9월, 오픈AI와 메타를 저작권법 위반으로 제소했습니다. 이들 기업이 불법 복제 버전이 포함된 데이터셋을 사용해 LLM을 훈련했다는 것이었죠. 챗GPT의 정보 수집을 차단하는 언론사도 늘어나고 있습니다. 정제된 정보가 논리적으로 작성돼 있는 뉴스 콘텐츠는 LLM 학습에 유용한 데이터로 꼽힙니다.[7] AI 개발사들은 저작권이 있는 자료를 배포해 직접 이익을 추구하는 것이 아니기 때문에 저작권법 위반이 아니라는 입장인데요. 전문가들은 이에 부정적입니다. 오픈AI만 하더라도 유료 서비스를 통해 수익 창출 구조를 갖췄기 때문입니다. AI 시대 저작권 공방은 이제 본격적으로 시작되는 추세입니다.

‘산업 전반에 결합하고 있는 생성형AI (2)편 – 적용 사례’에서 계속됩니다.

산업용AI를 활용해 제조업을 혁신하는 다양한 방법을 알아보세요.

– 산업용AI로 신속하고 정확하게 미묘한 불량까지 짚어내는 사례

– 디지털 트윈으로 제조 공정을 최적화하는 방법

– 엣지 컴퓨팅과 연합학습으로 데이터 보안을 지키면서 예지보전을 수행하는 방법



Chloe Woo | Content Strategist

Reference

산업용AI 솔루션 LISA로 완벽한 실시간 이상 탐지를 경험해 보세요

2023-10-30

전세계 제조 업계의 스마트팩토리 전환이 가속화되면서 머신 비전을 이용한 검사 자동화, 실시간 이상 탐지, 예지보전에 대한 관심이 뜨겁습니다. 특히 반도체나 이차전지 등 혁신 제조산업 현장에서는 하루에도 수천 수만 개의 부품·제품들이 생산되는데, 사람이 불량을 일일이 찾아낸다는 것이 불가능에 가까워졌죠. 또한, 이제 고객들은 미묘한 결함도 용납하지 않기 때문에 이 요구를 충족시키려면 신속하고 정확하게 불량을 짚어내는 AI 검사 자동화가 필수입니다. 아하랩스의 LISA(Look...

Data CAMP를 활용해 디지털 트윈의 첫걸음을 내디뎌 보세요

2023-10-19

디지털 트윈 = 데이터를 가시화하여 현실의 문제를 해결한다 최근 화두로 떠오른 디지털 트윈은 디지털 환경에서 물리적인 현장을 모두 ‘가시화’해서 현실의 문제를 해결한다는 것이 핵심입니다. 디지털 트윈을 구현하는 데에는 핵심 기술 3가지가 필요한데요. 각각 물리 세계를 가상 세계에 모델링하는 가상화, 현실의 변화하는 각종 데이터를 실시간으로 반영하는 동기화, 그리고 모델링과 실시간 데이터를 활용해 해결하고자 하는 문제에 대한 최적의 답을 도출해내는 시뮬레이션입니다....

더욱 풍성한 기능으로 돌아왔습니다! – 오토클러스터링, 전처리 노드 추가 등

2025-03-31

🎉 이번 DAISY 릴리즈에서는 사용성과 기능성을 대폭 향상시킨 다양한 업데이트가 적용되었습니다. 주요 변경 사항을 확인해보세요! ✅ 오토클러스터링 유사한 이미지를 자동으로 그룹화해주는 오토클러스터링 기능이 추가되었습니다. 대량의 데이터를 손쉽게 분류하고, 라벨링 시간을 획기적으로 단축하세요! ✅ 라벨링 타입 변경 이제 하나의 라벨 데이터셋으로 다양한 모델을 학습시킬 수 있습니다! 라벨링 타입을 자유롭게 변경하여, 범용성과 재활용성을 극대화하세요....

[AI 에이전트 3편] 아하랩스가 제안하는 산업용 AI 에이전트 구축

2025-03-31

산업 현장에서 AI 에이전트는 점차 필수적인 기술로 자리 잡고 있습니다. 하지만 AI 에이전트를 성공적으로 설계하고 구축하려면, 단순히 AI 모델을 도입하는 것만 생각해서는 안 됩니다. 데이터 수집과 정제, 모델 설계, 지속적인 운영 및 유지보수에 이르기까지 전 과정을 세심하게 관리해야 하죠. 아하랩스는 산업용 AI 에이전트를 구축하는 데 필요한 모든 단계에서 강력한 솔루션과 차별화된 전문성을 제공합니다. LLM(Large Language Model) 기반의...

[AI 에이전트 2편] 산업용 AI 에이전트를 구축하여 업무를 자동화하고 효율화하세요

2025-03-24

AI 에이전트는 단순한 AI 챗봇을 넘어 자율적인 의사결정과 업무 자동화를 수행하는 강력한 AI 시스템입니다. 특히 산업 현장에서 AI 에이전트를 효과적으로 구성하면 업무 효율성을 높이고 운영 비용을 절감하며 데이터 기반의 의사결정을 지원할 수 있습니다. AI 기술이 지속적으로 발전하면서 AI 에이전트는 앞으로 더욱 강력한 역할을 하게 될 것이며, 이를 통해 기업은 생산성과 경쟁력을 동시에 높이고 더 나은 비즈니스 환경을 구축할 수 있습니다. 1....

아하랩스 팀이 AI 모델의 학습 결과를 분석하고 성능을 개선하는 방법을 알아보세요

2025-03-17

AI 모델의 학습 성능을 높이려면 모델 학습 결과에 대한 분석이 가능해야 합니다. 이번 아티클에서는 아하랩스 AI 팀이 모델의 성능을 평가하는 방법에 대해 자세히 알려드릴게요! 1. 컨퓨전 매트릭스(classification, segmentation, anomaly detection) 아하랩스는 모델 학습 후, 성능을 정밀하게 분석하여 개선 방향을 도출합니다. 이를 위해 컨퓨전 매트릭스(Confusion Matrix) 를 활용합니다. 컨퓨전 매트릭스는 모델의...

[AI 에이전트 1편] 단순 챗봇에서 AI 에이전트로 – 개념, 아키텍처, 사례

2025-03-10

2025년 1월, 미국 라스베이거스에서 열린 CES 2025는 인공지능(AI) 기술의 새로운 전환점을 보여주었습니다. 특히 AI 에이전트가 이번 행사의 핵심 주제로 부상하며 다양한 기업들이 혁신적인 AI 솔루션을 선보였는데요. 삼성SDS는 '패브릭스'와 같은 기업용 AI 에이전트를 통해 하이퍼 오토메이션의 가능성을 제시하였고, SK텔레콤은 개인 일상 관리를 돕는 AI 에이전트 '에스터'를 발표하여 주목을 받았습니다. 이처럼 AI 에이전트는 단순한 기술을 넘어,...

AI 모델 성능을 극대화하는 아하랩스의 데이터셋 구축 노하우

2025-03-10

AI 모델의 성능을 극대화하려면 “학습 데이터의 품질”이 핵심입니다. 아하랩스 팀은 고객과 긴밀히 협력하여 데이터를 구축하고, 정밀한 분석을 통해 최적의 모델을 개발하는 노하우를 갖추고 있습니다. 이번 아티클에서는 아하랩스가 데이터를 수집하고 가공하며, 학습 결과를 분석하여 모델의 성능을 극대화하는 방법을 소개합니다. 1. 데이터 수집 전략 – 다양한 데이터 확보를 통한 성능 향상 모델의 성능을 극대화하려면 데이터 수집 과정에서부터 신중한 전략이...

AI Researcher (2~10년)

2025-03-06

Summary 경력(2~10년) 채용 형태 : 정규직 마감일 : 상시 채용 근무지 : 경기도 성남시 분당구 성남대로 43번길 10 (하나EZ타워) 712호 AI팀을 소개합니다 AI팀은 AI연구소 소속으로, 자사의 Smart Factory Solution 중 AI모델과 서버를 개발하는 역할을 맡고 있습니다. 산업현장에서의 다양한 형태의 데이터를 기반으로, 오류를 검출하고 분류하는 AI 서비스를 모듈화하여 제공하는 업무를 진행합니다. 모델의 성능을 개선하기 위한 리서치 업무도...

.

산업 전반에 결합하고 있는 생성형AI (1)편 – 개념, 동향

2023-11-17

생성형AI(Generative AI)란?

(1) 개념

(2) 원리

생성형AI 모델의 종류

(1) 대규모 언어 모델(LLM, Large Language Model)

(2) 생성형 적대 신경망(GAN, Generative Adversarial Networks)

(3) 변이형 오토인코더(VAE, Variational Autoencoder)

2024년, 새로운 개념의 결함 이미지 생성 기능을 만나보세요

동향 : 출시부터 진화까지

(1) 생성형AI의 부상

(2) 검색 시장 판도 변화

(3)챗봇에서플랫폼으로 진화[3]

(4) 누구나맞춤 GPT제작 및 판매

뜨거운 감자, 생성형AI의 저작권 침해 문제

산업용AI를 활용해 제조업을 혁신하는 다양한 방법을 알아보세요.

Chloe Woo | Content Strategist

Related Stories

산업용AI 솔루션 LISA로 완벽한 실시간 이상 탐지를 경험해 보세요

Data CAMP를 활용해 디지털 트윈의 첫걸음을 내디뎌 보세요

더욱 풍성한 기능으로 돌아왔습니다! – 오토클러스터링, 전처리 노드 추가 등

[AI 에이전트 3편] 아하랩스가 제안하는 산업용 AI 에이전트 구축

[AI 에이전트 2편] 산업용 AI 에이전트를 구축하여 업무를 자동화하고 효율화하세요

아하랩스 팀이 AI 모델의 학습 결과를 분석하고 성능을 개선하는 방법을 알아보세요

[AI 에이전트 1편] 단순 챗봇에서 AI 에이전트로 – 개념, 아키텍처, 사례

AI 모델 성능을 극대화하는 아하랩스의 데이터셋 구축 노하우

AI Researcher (2~10년)