2024-10-07 | 인사이트 리포트

제조 시계열 데이터(Time Series Data)의 특징

Chloe Woo | Content Strategist

manufacturing site & data

제조 시계열 데이터(Time Series Data)란?

시계열 데이터란 시간 순서대로 집계된 데이터를 뜻합니다. 매일/매시간 업데이트되는 기온, 습도, 강수량 같은 날씨 정보, 분초 단위로 변하는 주식의 가격 정보, 날짜 및 시간과 입출금 된 액수가 함께 기록되는 은행 거래 내역 등이 모두 시계열 데이터이죠. 시간의 흐름이라는 기반 위에서 사는 우리들과 가장 가까운 데이터는 어쩌면 시계열 데이터인지도 모릅니다. 

제조 현장도 다르지 않습니다. 생산 현장에서 시간 순서대로 수집된 모든 데이터를 제조 시계열 데이터라고 할 수 있는데요. 주로 기계 장비에 부착돼 있는 센서에서 발생한 정보나 생산라인의 운영 상태를 실시간으로 기록한 데이터로, 보통 1차원으로 표현됩니다(반면에 이미지 데이터는 행렬의 2차원 구조 또는 행렬+RGB의 3차원 구조를 가집니다). 각 데이터 포인트는 특정 시간에 수집된 값을 나타내며, 이를 통해 시간 흐름에 따라 발생하는 변화를 추적하고 장단기 미래를 예측할 수 있습니다.

deep neural network image

시계열 데이터의 기본 특징

시계열 데이터는 다른 데이터 유형(이미지 등)과 구별되는 몇 가지 중요한 특징을 가지고 있습니다. 이 특징들은 시계열 데이터를 분석하고 미래를 예측하는 데 있어 중요한 요소로 작용합니다.

(1) 시간 의존성(Temporal Dependence)

시계열 데이터의 가장 큰 특징은 시간에 따라 변화한다는 점입니다. 데이터 포인트들이 시간 순서에 따라 기록되기 때문에 이전 시점의 데이터가 이후 시점의 데이터에 영향을 미칠 가능성이 높습니다. 예를 들어 주식 가격, 날씨, 인구 등은 시간 흐름에 따라 변화하며, 과거의 값이 미래 값에 영향을 미치는 구조를 가집니다. 시점 간의 상관관계를 고려하는 분석 기법이 필요한 이유이죠.

(2) 자기상관성(Autocorrelation)

여기서 ‘자기상관성’이라는 개념이 등장합니다. 시계열 데이터는 종종 자기상관성을 가지는데요(아닌 경우도 있다는 뜻입니다). 시간에 따라 데이터가 서로 상관관계를 가지는 현상으로, 이전 시점의 값이 이후 시점의 값에 영향을 미친다는 의미입니다. 관측값들이 서로 독립적이지 않은 거죠. 이런 자기상관성을 파악하면 미래를 예측하는 데 도움이 됩니다.

매 0.1 단위마다 값이 유사하므로, 자기상관성이 높다는 것을 알 수 있습니다. Image Credit: Mattruffoni/Wikimedia Commons

(3) 계절성(Seasonality)

시계열 데이터는 종종 계절적인 패턴을 보입니다. 계절성이란 일정 주기(일, 주, 월, 년 등)에 따라 반복적으로 나타나는 데이터의 변동을 의미합니다.

예를 들어, 에어컨 판매량은 여름철에 급증하고 겨울철에 감소하는 계절성을 가질 수 있습니다. 계절성은 많은 시계열 데이터에서 나타나며, 이런 패턴을 인식하는 것이 데이터의 변동을 이해하고 예측하는 데 매우 중요합니다.

월별 항공기 승객의 시계열 데이터. 매년 여름철에 승객 수가 가장 많아, 강한 계절성을 확인할 수 있습니다. Image Credit: DOI:10.1109/IJCNN.2012.6252470

 

(4) 추세(Trend)

시간이 지남에 따라 장기적인 증가나 감소 경향을 보이는 패턴을 말합니다. 일시적인 변동이나 계절성보다 “더 장기적인” 방향성을 나타내는데요.

예를 들어 경제 성장률, 지구의 평균 온도, 인구 증감, 특정 제품의 장기적인 판매 추이 등은 시간이 지남에 따라 일정한 방향성을 띠며 증가하거나 감소할 수 있습니다. 추세를 파악하는 것은 미래를 예측하는 데 매우 중요합니다.

global average surface temperature

지구의 연평균 온도는 장기적으로 오르는 추세(+, 양)를 나타냅니다. 추세는 시간 범위에 따라 양의 방향과 음의 방향이 번갈아 나타날 수 있습니다. Image Credit: 미국해양대기청

 

(5) 변동성(Volatility)

시계열 데이터가 시간에 따라 얼마나 크게 변동하는지를 나타냅니다. 변동성이 큰 데이터는 시간이 지나면서 값이 급격히 변화하며, 변동성이 작은 데이터는 비교적 일정한 변화를 보이죠. 특히 금융 시계열 데이터에서 변동성은 매우 중요한 특성으로, 주식 가격이나 환율을 예측하고 리스크를 관리하는 데 유용한 역할을 합니다. 변동성이 높은 데이터는 예측이 더 어려울 수 있습니다.

다우존스 그래프

채권 금리나 주가 흐름 등은 때때로 경제 상황에 따라 유례없이 큰 폭으로 오르락내리락 할 수 있습니다. 이런 그래프를 변동성이 크다고 합니다. Image Credit: Wikimedia Commons

 

(6) 정상성 vs. 비정상성(Stationarity and Non-Stationarity)

정상성은 시계열 데이터의 분포가 시간이 지나도 일정하게 유지되는 특성을 말합니다. 정상성을 갖는 시계열 데이터는 시간에 따른 평균, 분산, 공분산이 일정하게 유지됩니다.

반면, 비정상성이 있는 데이터는 시간이 지남에 따라 평균이나 분산이 변동합니다. 예를 들어, 장기적으로 상승 추세를 보이는 지구 평균 온도 데이터는 비정상성을 가진 데이터이죠. 구간에 따라 평균 값이나 분산이 다르니까요.

이렇게 장기적인 추세나 계절 요인이 포함돼 있어서 데이터가 비정상성을 보이면 이를 모델링해서 분석하는 것이 너무 어렵습니다. 그래서 일반적으로 데이터가 정상성을 갖도록 전처리를 해야 합니다.

위 그래프는 어떤 시간 구간을 잘라서 봐도 평균이나 분산이 일정합니다(정상성). 반면, 아래 그래프는 시간 구간에 따라 평균이나 분산이 바뀔 수 있습니다(비정상성). Image Credit: DOI:10.25972/OPUS-22025

 

(7) 이상치(Outliers)&노이즈(Noise)

시계열 데이터는 이상치나 노이즈를 포함할 수 있습니다. 이상치는 데이터의 일반적인 패턴에서 벗어난 값으로, 갑작스러운 외부 요인이나 시스템 오류로 인해 발생할 수 있습니다. 그리고 노이즈는 말 그대로 시계열 데이터에 포함된 무작위적인 변동을 의미합니다. 이상치와 노이즈는 데이터 분석의 정확성을 떨어뜨릴 수 있기 때문에, 이를 탐지하고 제거하거나 보정하는 것이 중요합니다.

 

스마트팩토리 로봇 모습

“제조” 시계열 데이터의 또다른 특징

위에 언급한 기본 특징 외에도 복잡한 제조 현장에서 생성되는 시계열 데이터에는 또 다른 특징들이 있습니다. 이것들을 제대로 알아야 제조 시계열 데이터를 제대로 분석할 수 있습니다.

(1) 고빈도&대규모

제조 현장에서 발생하는 시계열 데이터는 매우 짧은 시간 간격으로 수집되는 경우가 많습니다. 예를 들어, 기계의 진동 등은 초당 수백~수천 회 데이터를 기록할 수 있습니다. 보통 공정이 매우 빠르게 진행되고, 작은 변화가 품질이나 생산성에 큰 영향을 미칠 수 있기 때문입니다. 고빈도의 데이터 수집을 통해 실시간으로 미세한 변동을 파악하고, 잠재적인 문제를 조기에 발견할 수 있습니다.

또한, 제조 현장에서는 수많은 기계와 공정이 동시에 운영되기 때문에 시계열 데이터의 양이 방대합니다. 대형 공장의 경우 매초 수십 수백 개의 기계에서 발생하는 데이터를 실시간으로 기록하게 되며, 이는 빅데이터 수준의 데이터를 형성합니다. 이런 대규모 데이터를 효율적으로 처리하려면 분산 컴퓨팅 기술이나 클라우드 기반의 데이터 저장 및 분석 인프라가 필요할 수 있습니다.

(2) 다차원 데이터

제조 현장에서는 단일 변수가 아닌 여러 변수들이 동시에 수집됩니다. 예를 들어 하나의 생산 기계에서 온도, 속도, 압력, 진동, 전력 소모 등 다양한 종류의 데이터가 함께 기록되는 것이죠. 이런 변수들은 서로 연관되어 있는 경우가 많습니다. 다차원 데이터로부터 각 변수 간의 상호작용을 분석하면 공정 전체의 상태를 종합적으로 파악할 수 있습니다.

(3) 기기 간 상호작용

제조 공정에서는 여러 센서와 기기가 상호작용하며 데이터를 생성합니다. 각 기기의 동작이 다른 기기의 데이터에 영향을 미칠 수 있으며, 이러한 상호 의존적인 데이터를 분석하는 것이 필요합니다.

예를 들어, 한 기기의 온도 상승이 다른 기기의 압력 변화로 이어질 수 있기 때문에, 개별 센서 데이터를 독립적으로 분석하는 것보다는 상호 관련성을 고려한 분석이 중요합니다.

(4) 실시간성

제조 시계열 데이터의 중요한 특징 중 하나는 실시간 처리가 필요하다는 점입니다. 제조 현장은 시간이 곧 생산성으로 직결되기 때문에, 데이터를 즉시 분석하고 조치를 취하는 것이 필수적입니다.

예를 들어, 기계가 비정상적인 동작을 할 때 실시간으로 데이터를 모니터링해서 즉각 문제를 감지하고 해결하지 않으면 생산이 중단되거나 대규모의 불량품이 발생할 수 있습니다.

(5) 비선형성&복잡성

제조 공정은 종종 비선형적인 동작을 보이며, 시계열 데이터의 패턴이 복잡하게 얽혀 있을 수 있습니다. 예를 들어, 기계 마모나 부품 열화는 시간이 지남에 따라 복잡한 비선형적인 패턴을 보일 수 있죠. 이러한 비선형성을 모델링하고 예측하기 위해서는 복잡한 알고리즘 또는 딥러닝 기반의 모델이 필요합니다.

제조 설비의 부품 열화 예시 그래프

시간에 따른 부품의 열화를 개략적으로 나타낸 그래프. 중간에 성능이 높아지는 부분은 유지보수를 한 시점을 나타냅니다. 제조 공정에서 나오는 시계열 데이터는 비선형적이고 복잡한 경우가 많습니다. Image Credit: Pirehelokan/Wikimedia Commons

(6) 제조 환경의 노이즈 및 이상치

제조 환경은 매우 가혹한 조건인 경우가 많습니다. 너무 시끄럽거나 너무 뜨겁거나 너무 빠르거나 너무 흔들리는 거죠. 따라서 시계열 데이터에 노이즈(불필요한 데이터)나 이상치(비정상적인 데이터)가 많이 포함될 가능성이 훨씬 높습니다. 노이즈나 이상치 때문에 데이터 분석의 정확도가 떨어지면 잘못된 예측을 하게 될 위험이 있으므로, 이를 제거하거나 적절히 처리할 수 있는 알고리즘을 적용해야 합니다.

다음 아티클에서 시계열 데이터를 다루는 전통적인 통계분석 알고리즘 및 최신 딥러닝 기반의 방법론을 자세히 알아보세요.