카테고리 없음

5G DNA(Digital Network Automation) 기술 개발 - 연구결과 (3)

studysolo 2022. 11. 9. 00:46

안녕하세요! 5G DNA* 기술 개발 (*Digital Network Automation)이라는 주제로 SKT AI Fellowship 4기에 참여하게 된 팀 DNA(다나와) 입니다. 프로젝트를 시작한게 엊그제 같은데 벌써 5개월간의 여정이 마무리 되었습니다.

중간 과정(2) 글에서 저희가 개발한 모델에 대한 상세한 설명을 드렸었기 때문에 이번 글에서는 달라진 점과 좀 더 넓은 관점에서를 중점으로 그동안의 연구 내용을 설명드리고자 합니다.

 

연구 목표

 

이전 글을 통해 저희의 연구 목표는 설명가능한 인공지능을 통한 무선망 운용 최적화라고 말씀드렸습니다.

망 안정성 확보를 위해서 선제적 무선망 품질관리가 필수적입니다. 저희는 선제적 무선망 품질관리를 달성하기 위해 예측 기반 관제 시스템을 구축하고, 그 모델에 대한 설명력을 갖추고자 했습니다. 이를 통해 기존 무선망 운용 프로세스가 위 이미지의 As-is 프로세스였다면, 품질저하를 예측하고, 그 원인을 도출하는 과정을 추가하여 사용자 문의 발생률 감소와 품질 저하 원인 분석시간 감소를 이끌어 낼 수 있는 To-be 프로세스를 구축하였습니다.

 

모델에 대한 설명력의 필요성

인공지능을 통한 무선망 운용 최적화는 단순히 모델의 예측 성능을 높이는 것만 필요하지 않습니다.

해당 이미지는 허스키와 늑대를 분류하는 분류기에 대한 예시입니다.

이상적으로는 분류기가 허스키의 이마와 눈 주변의 삼각창 모양의 털무늬를 통해 허스키와 늑대와 구분 짓기를 기대하지만 위의 실제 학습된 분류기의 경우 객체 주변에 눈이 많이 보이는 경우 늑대라고 분류하고 있습니다. 허스키가 눈이 없는 곳에만 사는 것이 아니기 때문에 이러한 분류기는 차후 오작동 할 가능성이 높습니다.

 

이러한 단순한 예시를 봐도 알 수 있듯이, 구축된 모델을 인간이 신뢰할 수 있는지는 중요한 문제입니다. 특히 질병의 음/양성 분류, 컴퓨터 vision을 통한 반도체 공정 관리와 같이 오분류에 대한 Cost가 큰 산업에서는 중요도가 커집니다. 따라서  설명가능한 인공지능(eXplainable AI)는 사용자와 고객으로부터 신뢰를 얻기 위해 꼭 필요한 연구입니다.

 

연구 진행

사용 데이터

연구에 사용한 데이터는 무선망 데이터입니다. 기지국과 단말이 연결되어 무선망 서비스를 제공하게 되면 무선환경이 기록됩니다. 이를 5분 단위로 집계한 데이터를 무선망 데이터라고 명명하겠습니다.

데이터는 기지국 별로 2차원의 Feature matrix 형태를 가집니다. Feature 해당 데이터에서 RRC_CNT, RRC_FAIL_RATE라고 보시면 되시고, 각 시점에서 Feature 값들을 모아 Feature vector라고 합니다.

인공지능 모델에 실제로 사용되는 데이터는 3차원 Tensor 형태이며, 저희는 각 기지국 별 개별 모델을 병렬 학습 시키는 방식을 활용할 예정입니다. 따라서 기지국 개수 별로 Feature matrix가 쌓인 상태(Feature tensor)로 데이터가 학습에 사용됩니다. 이 때 Feature tensor $X_i$의 차원은 $ENB \times T^{'} \times D$로 $ENB$는 기지국의 개수, $T^{'}$는 time window의 길이, $D$는 feature의 개수로 무선 데이터에서는 10개입니다.

 

사용한 모델

저희는 Graph Neural Network(GNN)를 사용하여 모델을 구축했습니다. GNN을 사용한 이유는 무선망 데이터 간 관계성과 무선망 환경 데이터의 예측 값을 한번에 산출할 수 있기 때문입니다. 예측 값을 사용해 선제적 자원할당 의사결정과 품질 오류에 대한 선제적 ROOT-CAUSE 분석이 기대되고 무선망 데이터간 관계성을 통해 도메인 지식과의 시너지 효과와 기지국 단위의 오류 대응 매뉴얼 구축 및 자동화를 기대하고 있습니다

 

GNN에 대한 설명은 중간 과정(2) 글 및 논문 리뷰글에서 다루었기 때문에 생략하고 모델 산출물을 보여드리면 다음과 같습니다.

예측값과 함께 변수 간 관계성 그래프를 얻기 때문에 모델 결과물에 대한 해석이 가능함을 확인 가능합니다. (실제 결과는 시간에 따라 관계성 그래프가 변화하지만 이미지이므로 이를 보여주지 못한 점 양해 부탁드립니다.)

 

무선망 데이터의 특징

 

저희가 활용하는 무선망 데이터를 분석하여 얻은 3가지 특징이 있습니다.

1)비정상(non-stationary) 시계열이고, 주기성을 가진다.

2)결측치의 발생이 랜덤하지 않고 내재된 결측치 발생 프로세스를 따른다(MNAR)

3)각 기지국 별로 독특한 관계성 그래프를 가진다.

 

위 이미지를 보시면 시간에 따라 관계성 그래프가 변화하고, 서로 다른 기지국이 다른 관계성 그래프를 가지는 것을 확인할 수 있습니다.

 

이러한 세 가지 특성을 모두 반영하는 모델을 구축해야했습니다.

 

문제 정의

중간 발표때의 feedback을 바탕으로 단일 스텝 예측 모형에서 멀티 스텝 예측 모형으로 변경하였지만, 설명의 편의를 위해 단일 스텝 예측 기준으로 설명드리겠습니다.

feature tensor $X^T$는 예측시점에 해당하는 T 시점에서의 값으로 단일 스텝 예측 기준이므로 $N \times 1 \times D$의 shape 즉, "기지국 개수 X 단일 스텝 X feature 개수" 의 shape를 갖습니다. 이를 예측하기 위해 사용하는  T 이전 시점의 입력데이터는 $X^{<T}$로 $N \times T^{'} \times D$의 shape를 갖습니다. 저희 모델은 결측치 예측에 대한 모델링도 포함하기 때문에 결측치가 발생한 경우 0 , 그렇지 않을 때 1로 마스킹된 missing value indicator matrix $M^T$와 $M^{<T}$를 생성합니다. 이 행렬은 feature tensor와 동일한 shape를 가집니다.

또한 저희 모델에서 변수간 관계성을 나타내는 relation matrix $Z^T$가 예측 시점 T에 생성되며 그 shape는 $N \times D \times D$로 예측 시점마다 전체 기지국 각각에 대해 생성됨을 알 수 있습니다.

 

모델의 high level view

모델의 구조를 설명함에 앞서 저희가 제안하는 모델은 베이지안 네트워크 관점에서 바라보는 것이 가능합니다. 이에 대한 자세한 설명은 연구과정(2)글에 있으니, 생략하고 모델을 high-level view로 설명 드리도록 하겠습니다.  

저희 모델은 크게 5가지 구분으로 구성됩니다.

1.Graph Learning Layers

2.Discrete Sampling with Gumbel-softmax

3.Time-series Encoder

4.Time-series Decoder

5.Missing Value Prediction

각 모듈별 자세한 설명은 마찬가지로 연구과정(2)글을 참고 부탁드리겠습니다.

모델의 전체적인 흐름은 위와 같습니다.

실제 시계열 값 $X^{<T}$를 입력으로 받아 normalized version의 $X^{<T}$와 masked input $M^{<T}$를 만들어냅니다. normalized version의 $X^{<T}$는 Graph learning layer와 discrete sampling 모듈을 통과하여 feature간 관계성 그래프를 만들어 냅니다. 이 관계성 그래프를 활용하여  Time-series Encoder&Decoder로 표현되는 GNN모듈을 통과하여 T시점에서의 시계열 예측값 $\hat{X}^T$ 을 얻어냅니다. 이 값은 masked input $M^{<T}$을 Missing Value Prediction모듈을 통과하여 얻은 T시점에서의 Masking 예측값 $\hat{M}^T$ 과 곱해져 최종 예측값을 얻어냅니다. 최종 예측값을 위와 같은 곱으로 구하는 것은 아래의 식에서  mobile connection이 없는 경우의 예측값 $E(X^T|\hat{M}=0)$ 이 0이기 때문입니다.

 

모델의 학습

Total loss는 Missing value prediction에 대한 loss, Time-series decoder의 reconstruction loss, Graph learning layer에서의 KL divergence값이 합쳐진 형태로 구성되며 해당 Total loss가 그림과 같이 역전파 되는 방식으로 학습됩니다.

 

모델 성능

저희가 제안하는 모델과 벤치마크 모델들과의 특징을 비교하면 위와 같습니다. 최신 GNN모델로 이루어진 기존 벤치마크 모델들은 특징들을 일부만 반영하는 반면 저희 모델은 모든 특징이 반영되어, 무선망 데이터에 특화된 모델입니다.

 

학습 데이터의 경우 5분 간격으로 얻어진 강남구 일주일 치의 무선망 데이터를 활용하였고 training, validation, test데이터 순서대로 각각 70%,20%,10%의 비율을 갖습니다.

 

하이퍼 파라미터 튜닝 결과 time window가 7로, 35분의 과거 데이터를 활용하여 미래 시점 예측을 진행하고 있습니다. 중간 발표 시점에서는 단일 시점에 대한 예측만 진행하였지만, 멘토분들의 피드백을 수용하여 더 이후 시점까지 동시에 예측할 수 있도록 모델을 수정하였고 이에 따른 1-step 예측과 3-step 예측에 대한 성능, 그리고 3-step 예측에서의 실제 핵심 품질 지표(RRC_FAIL_RATE 및 CQI 예시)plotting 결과는 아래와 같습니다.

각 지표는 모든 기지국에서, 모든 feature에 대한 예측 결과에 의해 계산되었습니다. 1-step 의 경우 모든 지표에서 벤치마크보다 좋은 성능을 보이며 3-step 의 경우 정량적인 수치는 NRI와 같지만 실제 예측값을 시각화할 경우 NRI는 예측을 제대로 하지 못하는 것을 확인할 수 있습니다. 물론 저희 모델의 경우도 벤치마크보다 RRC_FAIL_RATE에서 추세 패턴에 대해서는 잘 학습했지만 CQI의 경우 CQI값이 낮아지는 것에 대한 반응은 하지만 모델 자체가 신속하게 변화하지 않는 한계는 가지고 있습니다.

 

추론된 관계성 그래프 비교

벤치마크 모델과 저희 모델의 관계성 그래프입니다.

MTGNNGranger의 경우와 같이, 관계성 그래프가 static하다면 계속해서 변화하는 시계열 간 관계를 모델링하지 못합니다. 저희 모델의 경우 위의 이미지로는 표현되지 않지만 시간에 따라 변화하는 시계열 간 관계를 모델링 했고, 실제로 성능향상으로 이어졌습니다. 또한 타 관계성 그래프에 비해 sparse하기 때문에 핵심적인 relation을 파악할 수 있습니다.

 

Ablation Study

저희 모델의 주요 모듈에 대한 ablation study를 진행했습니다. 이를 통해 모듈들의 효용을 알 수 있었고 특히 graph learning layer모듈이 효과적으로 성능을 향상시킨 점으로 그래프 구조로 추상화된 정보가 시계열 예측에 도움이 됨을 확인할 수 있었습니다. 

 

연구 성과

지금까지 설명드린 내용을 통해 저희는 예측 성능 관점에서 최신 GNN모델 대비 우수한 시계열 예측 성능을 single step 및 multi step에서 공통적으로 보였습니다. 또한 학술적 관점에서는 설명 드린 모델의 구조처럼 모듈들을 통합한 새로운 모델을 제시하였고, 무선망 데이터의 다양한 특성을 반영한 설명 가능한 인공지능 모델을 제시했습니다.

 

발전 방향

제시된 모델은 우수한 모델이지만 다음의 한계점들을 가집니다. 

첫번째, 기지국의 지리적 특성이 반영되지 않았습니다. 기지국 별 위도와 경도가 포함된 데이터를 통한다면 다음과 같은 2가지 방법 정도로 Spatial correlation을 모델에 반영이 가능할 것으로 생각됩니다. 

1) Euclidean 또는 Manhattan distance를 기준으로 Spatial graph 를 생성하고 모델에 활용하는 방식.

2) Spatial correlation 에 대한 prior distribution을 1) 방법 등을 활용해 정하고, 모델이 학습을 하면서 Spatial correlation에 대한 posterior distribution을 추정하여 이를 활용하는 방식.

 

두번째, Missing value prediction 모듈 형성시 시계열 데이터 내부의 관계성만 고려하여 모델링이 되었습니다. 외부적 요인, 가령 기상환경 등이 결측치 발생 요인이 될 수도 있지만, 이러한 부분은 고려되지 않은 상황입니다.

 

마지막으로 기존 문헌보단 Lagging 현상(시간 지연)이 덜 하지만, 1-steplag가 발생하는 상황입니다.

 

이러한 한계점들은 dataexpressive power를 높이게 되면 개선 가능할 것으로 보입니다. 무선망 환경 지표의 예시 계층 구조는 위의 이미지에서 확인이 가능한데, 계층의 하위 부분과 관련된 추가 feature의 확보후 이를 활용하면 expressive power를 높일 수 있습니다. 

 

연구 결과물 활용 시나리오

저희가 개발한 모델을 통해 실제 현업에 어떻게 적용할 것인지에 대한 예시를 마지막으로 글을 마무리하고자 합니다.

1)무선망 운용을 위한 데이터 인사이트 도출

각 기지국 별로 학습된 관계성 그래프를 통해 기지국의 특성에 대한 이해를 할 수 있습니다. 예시로 위와 같은 관계성 그래프는 특정 예측값을 얻은 시점에서 Call Release Anomaly Count는 자기 상관성을 가지며 다른 무선망 데이터의 급격한 움직임이 Call Release Anomaly Count에 영향을 준다는 인사이트를 도출할 수 있습니다.

 

2)선제적 품질 관리 프로세스 도출

 

맨 처음에 연구 목표는 기존 As-Is Process에 무선망 품질 저하 예측 & 품질 저하 원인 파악을 통한 To-Be Process 도출이라고 말씀 드렸습니다. 저희가 제안하는 모델을 통해 얻는 예측 값이 품질 저하 예측에 활용되고  관계성 그래프가 품질 저하 원인 파악에 활용되어 목표한 To-Be Process 도출이 가능하며 이를 통해 As-Is Process 대비 사용자 문의 발생률 감소와 문제 해결까지의 시간 단축을 이루어 낼 수 있습니다.

 

이상으로 5개월간의 연구를 마무리 짓는 포스팅을 마무리 짓도록 하겠습니다. 그동안 고생한 팀원 및 멘토님들과 운영진 여러분들께 감사드립니다.