통신사업자의 망 구조의 기본은 서비스 단절이 없어야 한다는 점이다.
이를 흔히 Carrier-Class, Carrier-Grade라고 한다. 과거 PSTN 전화망에서도 무언가로 인한 장애 발생시 이용자의 서비스 단절이 없게끔 50ms이내의 우회경로전환/장애복구가 통신망에서 기본중에 기본이었다. 이는 지난 수십년간 변하지 않아 왔던 목표이었고, 통신망 운영자들의 사명감이고 관련 기술 벤더들의 기술 개발의 지향점이었다.
통신망은 여러 가지 이유들로
- 휴먼 에러: 운영진의 설정 미숙/실수 등
- 장비: 통신망 장비의 소프트웨어 (통신 프로토콜, 장비 OS 등)상 오류, 통신망 장비의 하드웨어적 다운
- 광선로: 통신 선로상의 장애/광 케이블 절단(누군가 땅 파다가/차가 전주를 들이받아 등)
- 토폴러지: 통신망 설계시/구축시 투자비로 인한 우회 경로 미구현
- 국사: 얼마전 KT 아현국사 사례처럼 화재로 인한 국사 자체의 파손 (Geo-Redundancy 미고려 등)
인해 늘 장애와 서비스 단절이 발생할 수 있다.
얼마전 KT 아현 국사 화재로 해당 지역의 이용자들이 통신 서비스 단절을 수십ms가 아닌 수초가 아닌 수일간 겪었고, 또 전국민이 "전쟁이 난 것도 아닌 데, IT 초강대국인 우리나라에서 이럴수가 있나" 하는 충격을 느꼈다.
실제 디테일한 망 구조는 통신사에서 공개하지 않으므로 알 수는 없으나, 일반적으로 공개된 사항들을 바탕으로 문제와 원인을 살펴보자.
KT 모바일망의 경우 4G LTE RAN이 아래 그림처럼 C-RAN 구조(BBU와 RRH의 분리)이며 셀사이트의 RRH와 CO(통신국사)의 BBU는 Dark Fiber로 직결되어 있다 (P2P: Point-to-Point 직결 구조임). 풍부한 Fiber로 인해 별도의 WDM 같은 전송장비없이 프론트홀을 구축했다. 이 구조는 용량상 매우 큰 장점을 가진다.
[문제점]
아래 그림에서 보듯이 셀사이트와 CO간의 Dark Fiber가 사고로 절단되면 그 지역은 서비스가 단절된다.
또한 각 RRH는 하나의 CO로만 집선되므로 CO가 화재/지진 등으로 파손되면 해당 CO 하단의 모든 RRH의 상향 경로는 모두 끊긴다.
<KT의 LTE 망 구조>
출처: KT 발표자료들 (2011-2018)
가장 기본은 우회경로 확보이다.
통신망은 윗쪽(IP 백본망)과 아래쪽(액세스망)으로 나눌 수 있는 데, 대부분의 통신사업자들은 위쪽은 충분한 우회 경로 (메쉬, 풀메쉬, 링 등)와 용량을 확보해 놓는다. 반면에 투자비가 많이 들어가는 액세스망은 사업자에 따라 상황이 많이 다르다.
필자가 국내외 여러 프로젝트를 수행하면서 경험한 액세스망에서의 우회 경로 구현 사례를 이야기하자면 다음과 같다.
1. 라스트 마일 우회로 확보: SK Telecom의 경우, 셀사이트의 RRH들과 CO의 BBU을 연결하는 프론트홀망이 WDM 링 구조(셀사이트에 WDM RT, CO에 WDM COT 장비)로 되어 있다. 링구조이기 때문에 각 셀 사이트는 CO로 2개의 경로(시계방향과 반시계방향)를 갖는다.
액세스망에서 Fiber-cut이 발생해도 각 셀사이트의 트래픽은 우회 경로를 통해 CO로 정상적으로 전달되어 서비스 단절은 없다.
[문제점] 다만, SK Telecom의 경우도 액세스구간은 링이지만 이 액세스링이 하나의 CO로만 연결되어 있기 때문에 CO 자체가 화재 등으로 손실되면, KT와 마찬가지로 CO 하단의 모든 이동 통신은 두절된다.
<SK Telecom의 LTE 망 구조>
출처: SK Telecom 발표자료들 (2011-2018)
그렇다면, CO 장애시에도 우회 경로를 마련한 해외 통신 사업자의 사례를 살펴보자.
2. 일본 A사의 경우 링 구조와 듀얼홈잉 구조로 광 선로 장애와 국사 장애를 해결한다. 동경내 100개의 국사가 존재하며 이 국사들은 코어링(노란색 국사)과 액세스링(흰색 국사)으로 연결되어 있다. 액세스링내 Fiber-cut이 발생하거나 링내 라우터가 죽으면 반대 방향으로 트래픽을 전달하여 장애를 복구한다.
또한 액세스링을 자세히 살펴보면 액세스링이 두 개의 서로 다른 국사로 접속되어 있음을 볼 수 있다. 즉, 액세스링이 코어링상의 두개의 서로 다른 국사로 연결되어 있어 하나의 코어링 국사에 장애(코어 라우터 다운, 또는 코어링 국사 파손)가 발생해도 인근의 다른 국사로 트래픽이 우회할 수 있게 만들어 놓은 구조이다.
<일본 A사의 CO 연결 구조>
3. 인도 B사의 경우 LTE eNB들을 집선하는 액세스망이 링 구조와 듀얼 홈밍 구조로 설계 및 구축되어져 있다. 그림 아래쪽의 빨간 원이 셀사이트이며 여기에는 Cell Site Switch(CCS)와 eNB가 설치되어 있다.
<인도 B사의 LTE 액세스망 구조>
액세스망이 링구조이어서 Fiber-Cut이 발생하거나 CCS에 장애가 발생해도 우회경로가 자연스레 존재한다(사고시 반대 방향으로 전달). 중요한 점은 이 링이 두 개의 국사(아래 그림에서 AG1)에서 종단된다는 점이다. 하나의 국사가 모두 파손되어도 다른 국사를 통해 트래픽들을 정상적으로 전달된다.
<국사/허브사이트 장애/파손시 우회 경로>
물론, 세계 각국의 통신사업자들이 이중화 방안을 몰라서 안 하는 것은 아니다. 투자의 문제다. 이중화/삼중화/사중화를 구현하기 위해서는 비용이 그와 비례하게 들어간다.
현실로 다가오고 있는 5G 시대에는 단순히 스마트폰뿐만 아니라 다양한 사물들(자동차, 센서, 로봇, 드론, 등)이 통신망에 연결된다. 오만 가지 종류의 셀 수 없이 많은 기기들이 5G 망에 연결되기 때문에 소수의 지역이라도 통신 두절이 발생하면, 상상할 수 없는 재난(교통사고, 드론의 인간 충돌, 공장 기기/로봇 오작동 등등)이 발생할 수 있다.
이번 KT 아현 국사에 불이 났듯이, 화재나 지진 등의 사고는 언제든지 다시 발생할 수 있다. 누구도 예상할 수 없다.
현재는 백본망은 이중화가 잘되어 있지만 비용이 많이 들어가는 액세스망은 이중화가 제대로 안되어 있다. 향후 액세스망도 링, 듀얼호밍(복수 CO에) 등의 다중화 구조를 구현해야 한다. 비용이 큰 문제가 되겠지만 감당해야 한다.
좋은 글 감사합니다.
좋은 글 감사합니다!! 잘봤습니다!!