복잡한 제조 시계열 데이터, 통계분석+딥러닝으로 더 정확하게
Chloe Woo | Content Strategist
시계열 데이터 (1)편 제조 시계열 데이터의 특성>>먼저 읽어보기
시계열 데이터 분석은 과거부터 다양한 산업에서 중요한 역할을 해왔으며, 이를 위해 전통적인 통계분석 기법이 널리 사용돼 왔습니다.
하지만 제조 환경에서 수집되는 다변량 시계열 데이터는 비선형적인 상호작용과 복잡한 패턴을 자주 보이기 때문에, 이러한 전통적인 기법으로는 충분한 분석을 수행하기 어려운 한계가 있죠. 이를 AI 기술로 개선할 수 있습니다.
이번 아티클에서는 시계열 데이터를 분석하고 예측하는 전통적인 통계분석 기법과, 그것이 제조 환경에서 갖는 한계, 그리고 이를 돌파하는 머신러닝 및 딥러닝 기술을 소개합니다.
1. 통계분석 기법
전통적인 통계분석 기법은 데이터의 분포와 관계를 해석하는 데에 중점을 두는 수학적 원리입니다. 다양한 도메인의 실무에서 여전히 강력한 성능을 자랑하면서, 시계열 예측의 단단한 토대를 이루고 있습니다.
- 자기회귀 모델(AR; Autoregressive Model): 과거 자기 자신의 값들을 기반으로 현재 값을 예측하는 모델입니다. 자기상관성을 고려해 현재 값을 과거 데이터 p개의 선형 결합으로 표현하죠. 예를 들어, 오늘의 주가가 어제, 그제 주가에 영향을 받아 결정되는 구조입니다.
- 이동평균 모델(MA; Moving Average Model): 과거 q개의 예측 오차(잔차, Residuel)를 기반으로 현재 값을 예측하는 모델입니다. 시계열 데이터에서 무작위 변동성을 설명하는 데 유용하고요. 주가나 환율 같은 금융 데이터의 단기적 변동, 리테일에서 상품의 단기적 수요 변동 등 단기 예측에 주로 활용됩니다.
- 자기회귀 통합 이동평균 모델(ARIMA; Autoregressive Integrated Moving Average) 모델: AR 모델과 MA 모델을 결합한 형태로, 비정상적인 시계열 데이터를 처리하기 위한 차분(Differencing) 과정이 추가됐습니다. 데이터를 정상화한 뒤에 분석하는 거죠. 높은 성능을 보여주는 아주 유명한 모델입니다.
- 계절성 자기회귀 통합 이동평균 모델(SARIMA; Seasonal ARIMA): ARIMA 모델의 확장판으로, 계절성(Seasonality)이 있는 데이터를 처리할 수 있습니다. 주기적인 패턴을 반영해 보다 정교한 예측이 가능하게 합니다.
- 벡터 자기회귀 모델(VAR; Vector Autoregression Model): 위에 소개한 모델들은 단일 시계열 데이터에만 적용됩니다. 여러 변수가 있는 시계열 데이터를 분석하려면 다변량 모델을 사용해야 하죠.
VAR 모델은 그 중 하나로, 각 변수의 과거 값이 다른 변수들의 미래 값에 영향을 미친다는 가정 하에 각 변수의 변동을 함께 분석합니다. 예를 들어 GDP, 금리, 물가 등의 경제 변수를 VAR 모델을 사용해 동시에 분석하고 예측할 수 있습니다.
2. 제조업에서 통계분석 기법의 한계 및 AI 활용의 이점
제조 환경 같은 특수한 상황에서는 기존의 통계분석 기법만으로 한계가 있을 수 있습니다. 이런 어려움을 머신러닝과 딥러닝 기법으로 돌파할 수 있습니다.
(1) 빅데이터/실시간 처리
한계:
- 통계분석 기법은 비교적 작은 데이터셋을 처리하는 용도로 개발돼 있습니다. 즉, 빅데이터를 실시간으로 처리하도록 최적화되어 있지 않죠. 데이터의 양이 늘어날수록 처리 속도가 현저히 느려지면서 실시간 예측이 어려워집니다.
- 또한, 통계분석 기법은 일반적으로 고정된 크기의 데이터셋에 적용되는 방식입니다. 즉, 특정 시점까지의 데이터를 사용해 분석을 수행하며, 실시간으로 유입되는 데이터를 업데이트해서 분석하기에는 비효율적입니다.
AI로 해결:
- AI는 대규모 데이터를 처리하는 데 적합한 아키텍처를 가지고 있습니다. 머신러닝 모델은 스트리밍 데이터(실시간 데이터)에서 발생하는 새로운 데이터를 지속적으로 학습할 수 있는 기능을 제공하기 때문에 실시간 분석에 매우 유리합니다.
- 딥러닝 모델은 GPU를 활용한 병렬 처리가 가능하며, 분산 학습을 통해 대용량 데이터를 빠르게 처리할 수 있습니다.
(2) 고차원/비선형 패턴 분석
한계:
- 제조 공정은 종종 비선형적인 동작을 보이며, 많은 변수들이 시간에 따라 상호작용하며 변화하면서 고차원 시계열 데이터가 됩니다. 일반적으로 선형 패턴을 가정해 비교적 단순한 패턴을 찾는 데 적합한 통계분석 기법으로는 이렇게 복잡한 시계열 데이터를 분석하기에 한계가 있습니다.
AI로 해결:
- 이 작업에는 특히 딥러닝 기술이 유리합니다. 딥러닝 모델은 단순한 선형 가정 없이 데이터를 학습하므로, 비선형적인 복잡한 상호작용을 자동으로 모델링할 수 있습니다. 특히 컨볼루션 신경망(CNN)과 같은 딥러닝 기법은 고차원 데이터에서 지역적 패턴을 발견하고 분석할 수 있습니다.
- 데이터를 분석하려면 현상을 제대로 보여주는 독립적이고 식별 가능한 ‘특성(feature)’을 선택해야 하는데요. 통계분석과 머신러닝은 이러한 특성을 사람이 추출하는 데 비해, 딥러닝은 특성 추출조차 모델 안에서 자동으로 수행합니다. 이를 통해 훨씬 복잡하고 비선형적인 시계열 데이터의 패턴을 학습하고 예측하는 데 매우 뛰어난 성능을 보이죠.
(참고)
✓머신러닝: 명시적인 프로그래밍 없이 데이터를 기반으로 학습해 특정 작업을 수행하는 알고리즘을 말합니다. 주로 특정한 규칙을 사용해 학습하며, 패턴 인식이나 예측을 목적으로 합니다. 특성(feature) 추출과 모델 선택은 사람이 직접 설계하는 경우가 많습니다. 이 과정 자체가 사람의 경험에 기반하기 때문에 사람이 발견하기 어려운, 숨겨져 있는 변수간 진짜 상호관계를 발견하기는 어려울 수 있습니다.
✓딥러닝: 사람 두뇌의 구조를 딴 인공신경망(Artificial Neural Networks)을 기반으로 더 복잡하고 깊은 구조를 가진 모델을 사용하는 기법입니다. 여러 층(layer)으로 이루어진 신경망을 통해 복잡한 패턴과 관계를 자동으로 학습할 수 있죠. 딥러닝에서는 특성(feature) 추출 단계가 자동으로 이루어지며, 대량의 데이터를 통해 비선형적이고 복잡한 문제를 해결하는 데 탁월한 성능을 보입니다.
3. 다양한 AI 기법
- 랜덤 포레스트(Random Forest): 여러 개의 의사결정 트리를 결합해 예측 성능을 향상시키는 앙상블 학습(Ensemble Learning) 머신러닝입니다. 랜덤 포레스트는 본래 다른 대부분의 머신러닝 기법과 마찬가지로 시간 데이터를 고려하지 못하고 미래를 예측하는 능력도 없는데요. 시계열 분석을 위한 약간의 변형을 가해서 쓸 수 있습니다. 보통 복잡한 모형을 사용하기 전, 보다 빠르고 효율적으로 모델을 구축해 보려는 목적으로 많이 사용합니다.
- XGBoost(Extreme Gradient Boosting): 여러 개의 약한 학습기(주로 의사결정 트리)를 결합한 머신러닝 기법으로, 각 트리가 학습 과정에서 이전 트리의 예측 오류를 보정하면서 모델을 점점 개선합니다. 병렬 처리를 사용해 큰 규모의 데이터에서도 속도가 빠르며 누락된 값도 잘 처리합니다.
- 순환 신경망(RNN; Recurrent Neural Network): 순환 신경망은 시계열 데이터를 다루는 기본적인 딥러닝 모델 중 하나로, 순차적인 데이터를 처리하는 데 특화돼 있습니다. 시점별로 데이터를 입력받고, 각 시점에서 나온 출력을 다음 시점으로 전달하며 정보를 축적해 나갑니다. 이를 통해 순차적인 데이터에서 패턴을 학습할 수 있습니다. 요컨대, 이전 시점의 데이터를 기억하고 현재 시점에서의 예측에 반영하는 구조입니다. 다만, 시간이 오래 지나면 과거 데이터의 영향이 약해져, 긴 시계열 데이터를 처리하는 데 한계가 있습니다.
- 장단기 기억 신경망(LSTM; Long Short-Term Memory): RNN의 한계를 극복한 모델로, 긴 시계열 데이터에서도 과거 정보를 효과적으로 기억하고 처리할 수 있습니다. LSTM은 게이트 구조(입력, 출력, 망각)를 도입해 불필요한 정보를 걸러내고 중요한 정보만 저장해서 장기적인 패턴을 더 잘 학습할 수 있습니다.
- 게이트 순환 유닛(GRU; Gated Recurrent Unit): LSTM과 유사한 방식으로 작동하는 모델이지만, 구조가 더 간단합니다. 업데이트 게이트와 리셋 게이트 두 가지로 단순화하여 연산을 최적화합니다. 같은 성능을 유지하면서도 더 적은 계산 비용으로 학습할 수 있는 장점이 있죠.
- 합성곱 신경망(CNN; Convolutional Neural Network): 합성곱 신경망은 주로 이미지 데이터에 사용되지만, 최근에는 시계열 데이터를 분석하는 데도 많이 활용되고 있습니다. CNN은 데이터의 지역적인 패턴을 학습하는 데 뛰어나며, 시계열 데이터의 짧은 구간에서의 특징을 추출하는 데 적합합니다. 특히, 시계열 데이터의 특성을 필터를 통해 학습하여 중요한 패턴을 감지할 수 있습니다.
- 트랜스포머(Transformer): 자연어 처리(NLP)에서 탁월한 성능을 보이고 있지만, 시계열 데이터 분석에도 매우 효과적입니다. 어텐션(Attention) 메커니즘이란 것을 통해 데이터의 중요한 부분에 더 큰 가중치를 부여하며, 이는 긴 시계열 데이터를 분석할 때 매우 유용합니다. RNN과 달리, 데이터를 순차적으로 처리하지 않고 병렬 처리를 통해 더 빠르고 효율적으로 학습하며, 특히 셀프어텐션(Self-Attention)을 통해 데이터의 모든 시점 간의 상관관계를 고려하여 중요한 패턴을 학습합니다.