이동 통신 사업자는 IP Transport 망(IP/MPLS Network)에 LTE 장비(eNB, S-GW, P-GW, MME, HSS 등)를 연결하여 LTE 망을 구축합니다.
전국에 흩어져 있는 기지국(eNB)과 5~6개의 Regional POP에 위치한 LTE Core 장비(S-GW, MME 혹은 P-GW) 사이의 IP Transport 망을 Mobile Backhaul이라 부르며, 안정적인 이동 통신 서비스(Handover, VoLTE 서비스 등)를 위해 Mobile Backhaul은 일정 수준 이상의 품질(Delay, Jitter, Loss, Availability 등)을 유지/만족해야 합니다.
아래 그림은 Ericsson 자료를 인용한 것으로, 본 자료에 따르면 LTE 서비스를 위한 Mobile Backahul의 품질 기준을 아래와 같이 정의하고 있습니다.
- One-way Delay: 20ms 이하
- Jitter (Delay Variation): 2ms 이하
- Packet Loss Rate: 10에 -3승 이하
- Network Availability: 99.99%
출처: Mobile broadband backhaul: Addressing the challenge, Ericsson Whitepaper, May 2008
이번 시간에는 이동 통신 서비스를 위한 IP Transport 망의 성능 품질 측정/모니터링 기술에 대해서 소개해 드리도록 하겠습니다.
누가 어떻게 성능 품질을 모니터링하나?
LTE 트래픽(User Data, LTE 노드간에 Control Data)을 전달하는 스위치/라우터간에 Probe Packet(보통 UDP 기반)을 주고 받아 성능 품질을 측정할 수도 있고(그림 a), 별도의 라우터(Shadow Router라 부름)를 IP Transport 망에 연결하여 Shadow Router간에 Probe Packet을 주고 받아 성능 품질을 측정할 수도 있습니다(그림 b).
또한 Probe Packet에 QoS(CoS in Ethernet, DSCP in IP, EXP in MPLS packet) 값을 설정(marking)할 수 있어, 각 서비스 등급별로 성능 품질을 모니터링할 수 있습니다.
품질 측정은 주기적/지속적으로 이루어 집니다. 본 설정의 예는 1분마다 15개의 Probe Packet을 전송하고, 각 Probe Packet 간에 interval은 1초입니다.
- Probe-count = 15
- Probe-interval = 1 sec
- Test-interval = 45 sec
어떤 성능 품질을 모니터링하나?
- Delay (Latency): round-trip and one-way
- Jitter (Interpacket delay variance): one-way
- Packet Loss: one-way
- Packet Sequencing (packet ordering/out-of-sequence)
IP Transport 망 성능 품질 측정
위 그림은 성능 품질 측정 예를 보이고 있습니다. 이는 Cisco 자료를 기반으로 작성되었으나 Juniper 장비도 이와 유사한 방법으로 동작하는 것으로 알고 있습니다.
■ Delay 측정
Delay를 측정하기 위해 5개의 timestamp 값(T1 ~ T5)이 정의되고, 각 timestamp 값은 Source(Probe Request 패킷 송신 라우터)와 Destination(Probe Request 패킷 수신 및 Probe Response 패킷 송신 라우터)의 Control Plane/Line Card에 의해 그 값이 UDP Probe Packet에 기록되어 Source와 Destination간에 주고 받게 됩니다.
-
T1: Source의 Control Plane(Route Processor)에서 Probe Request 패킷 전송 시각 (time of day)
-
T2: Destination의 Line Card에서 Probe Request 패킷 수신 시각 (time of day)
-
T3: Destination의 Control Plane에서 Probe Response 패킷(Probe Request에 대한 응답 패킷) 전송 시각 (time of day)
-
T4: Source의 Line Card에서 Probe Response 패킷 수신 시각 (times of day)
-
T5: Source의 Control Plane에서 Probe Response 패킷 수신 시각 (time of day)
이와 같이 Probe Packet 송수신시에 Control Plane과 Line Card에서 각각 timestamp를 기록하는 이유는 Source 혹은 Destination에 Control Plane의 CPU 부하가 높은 경우 Probe Packet의 수신 및 처리 시간이 길어져 잘못된 성능 품질 결과가 나올 수 있기 때문입니다.
Cisco 테스트 결과를 보면, 이와 같이 Line Card에서의 timestamp를 정의하지 않는 경우 다음과 같이 잘못된 측정 결과가 나올 수 있다고 합니다.
-
Destination의 CPU 부하가 underload인 상황: RTT Delay = 15.0ms (이게 맞는 값)
-
Destination의 CPU 부하가 overload(90%)인 상황: RTT Delay = 58.5ms (Destination이 과부하 상태라서 응답을 늦게 줌. 품질 측정 구간의 망 Delay가 아니라 성능 품질 측정을 위한 라우터의 CPU 과부하로 인한 잘못된 결과)
Delay 측정은 아래와 같습니다.
▶ Source에서 Destination 방향의 One Way Delay는 Source의 Control Plane에서 보낸 패킷(Probe Request Packet)이 Destination의 Line Card에서 수신될 때까지 걸린 시각(T2 - T1)으로 측정되고,
▶ Destination에서 Source 방향의 One Way Delay는 Destination의 Control Plane에서 보낸 패킷(Probe Response Packet)이 Source의 Line Card에서 수신될 때까지 걸린 시각(T4 - T3)으로 측정되며,
▶ 마지막으로 Source에서 Destination을 거쳐 다시 Source로 돌아오는 Round Trip Delay는 위 2개의 값을 더한 결과((T2 - T1) + (T4 - T3))가 됩니다.
■ Jitter 측정
Jitter는 Delay의 변화 정도(Delay Variation)을 의미하며 다음과 같이 정의합니다.
-
Positive Jitter: Source에서 보낸 패킷들의 시간 간격(예. Inter Packet Interval = 10ms) 보다 더 큰 시간 간격(예. 15ms)으로 Destination이 패킷들을 수신 한 경우
-
Negative Jitter: Source에서 보낸 패킷들의 시간 간격보다 더 짧은 시간 간격(예. 5ms)으로 Destination이 패킷들을 수신 한 경우
-
Zero Jitter: Source에서 보낸 패킷들의 시간 간격과 동일한 시간 간격(예. 10ms)으로 Destination이 패킷들을 수신 한 경우
Jitter 측정은 아래와 같습니다.
▶ Source에서 Destination 방향의 One Way Jitter는 Source의 Control Plane에서 보낸 2개의 패킷 간격(i1)과 Destination의 Line Card에서 수신한 2개의 패킷 간격(i2)의 차이로 측정되며,
▶ Destination에서 Source 방향의 One Way Jitter는 Destination의 Control Plane에서 보낸 2개의 패킷 간격(i3)과 Source의 Line Card에서 수신한 2개의 패킷 간격(i4)의 차이로 측정됩니다.
■ Packet Loss 측정
▶ 그림에는 표시되지 않았으나 Source에서 Destination으로 보낸 Probe Request Packet 개수와 그 응답으로 Destination에서 Source로 보낸 Probe Response Packet의 개수를 통해 Packet Loss를 측정할 수 있습니다.
■ 측정 결과 예
아래는 Source Router에서 측정된 Delay, Jitter, Loss의 예제입니다.
Router#sh ip sla mon sta 10 detail
RTT Values
Number Of RTT: 1000
RTT Min/Avg/Max: 1/1/4 ms
Latency one-way time milliseconds
Source to Destination Latency one way Min/Avg/Max: 0/0/0 ms
Destination to Source Latency one way Min/Avg/Max: 0/0/0 ms
Jitter time milliseconds
Source to Destination Jitter Min/Avg/Max: 1/3/8 ms
Destination to Source Jitter Min/Avg/Max: 1/2/4 ms
Source to destination positive jitter Min/Avg/Max: 1/3/8 ms
Source to destination negative jitter Min/Avg/Max: 3/3/8 ms
Destination to Source positive jitter Min/Avg/Max: 1/2/4 ms
Destination to Source negative jitter Min/Avg/Max: 1/2/4 ms
Packet Loss Values
Loss Source to Destination: 0 Loss Destination to Source: 0
Out Of Sequence: 0 Tail Drop: 0 Packet Late Arrival: 0 |
LTE 서비스를 위한 실시간 네트워크 성능 모니터링 개념도
■ LTE over IP Transport Network
- UE는 eNB, S-GW, P-GW와 형성된 EPS Bearer를 통해 인터넷과 통신함
- UE ~ eNB: DRB
- eNB ~ S-GW: GTP tunnel
- S-GW ~ P-GW: GTP tunnel
■ Performance Measurement of IP Transport Network for LTE Service
- Mobile Backhaul의 성능 품질 측정을 위해 eNB와 연결된 Cell Site Switch(in Cell Site)와 S-GW가 연결된 Edge Router(in Regional POP)간에 Probe Packet을 주고 받아 Delay, Jitter, Loss를 측정함
- Regional POP(시/도)과 Core POP(서울)간에 성능 품질 측정을 위해 Edge Router와 Core Rotuer간에 Probe Packet을 주고 받아 Delay, Jitter, Loss를 측정함
- Core POP(서울)과 Internet Exchange(서울)간에 성능 품질 측정을 위해 Core Router와 Border Rotuer간에 Probe Packet을 주고 받아 Delay, Jitter, Loss를 측정함
■ Measurement Reporting to Management Server
- 이와 같이 측정된 성능 품질 데이터는 SNMP를 통해 주기적으로 Management Server로 전달되어 관리되고, 또한 각 라우터는 성능 품질 파라미터(Delay, Jitter, Loss)에 대한 Threshold를 설정하여, 성능 품질이 그 이하로 떨어지게 되면 SNMP Trap을 통해 Management Server에 바로 알림
글을 마치며
이와 같이 IP Transport 망에서 스위치/라우터간에 성능 품질 측정 솔루션을 Cisco에서는 IP SLA(Service Level Agreement)라 부르고, Juniper에서는 RPM(Real-time Performance Monitoring)이라 부르고 있습니다.
넷매니아즈에서 수행했던 SI(System Integration) 경험에 따르면, 네덜란드의 TPS 사업자와 말레이지아의 이동 통신사업자에서도 각각 주니퍼와 시스코 장비(Shadow Router)를 이용하여 Edge to Core, Core to Core 구간에서의 성능 품질을 관리하도록 하였습니다.
http://broabandtrafficmanagement.blogspot.kr/2012/06/qos-announcements-huawei-improves-tcp.html
자료중에 POP가 나오는데요 이게 뭔가요?
감사합니다.
건물 개수는 CO > POP > Data Center이고,
- Data Center는 한 나라에 2개 정도(이중화 고려)
- POP은 각 시/도마다 1개 정도씩, (서울은 예외. POP이 많음)
- CO는 각 시/도 안에 수십개라고 보시면 될 것 같습니다.
CO, POP, Data Center를 구분해서 이해하기 가장 좋은 방법은 여기에 어떤 통신장비가 위치하는지를 보는 것인데요. 이게 또 각 나라/통신사업자 마다 다 달라서 좀 헷갈린답니다.
따라서 그냥 개념적으로 설명을 드리며요.
Broadband Internet 서비스 장비 배치
- CO: DSLAM, OLT
- POP: Edge Router, BRAS
- Data Center: AAA, DHCP 서버
LTE 서비스 장비 배치
- CO: eNB를 aggregation하는 Switch/Router (eNB는 통신 사업자 건물이 아닌 일반 건물에 설치)
- POP: MME, S-GW, P-GW
- Data Center: HSS, OCS, OFCS
실무에 많은 도움이 되리라 생각됩니다. 좋은 글 감사합니다.
화웨이장비가 이때부터.....