DNS解析成功率下降案例分析0703
中國移動東莞分公司廣東東莞端到端信令分析優(yōu)化項目--LTE_DNS解析成功率下降案例分析上海瑞原信息技術有限公司東莞移動端到端信令分析優(yōu)化項目組2014年7月廣東東莞端到端信令分析優(yōu)化項目組Page
中國移動東莞分公司
廣東東莞端到端信令分析優(yōu)化項目
--LTE_DNS解析成功率下降案例分析
上海瑞原信息技術有限公司
東莞移動端到端信令分析優(yōu)化項目組


2014年7月
廣東東莞端到端信令分析優(yōu)化項目組
Page 1 of 10
,中國移動東莞分公司 1 概述:
7月2日下午18:30域名為(pool.ntp.org )的用戶的DNS 解析成功率都非常低, 懷疑DNS 設備中針對域名為(pool.ntp.org )的解析信息被刪除或者DNS 配置數(shù)據(jù)存在異常;建議下一步要省公司配合檢查DNS 設置,排查DNS 解析成功率問題。
2 LTE 網(wǎng)絡DNS 分析
2.1 【問題描述】
通過瑞原監(jiān)控平臺發(fā)現(xiàn)PGW101板卡維度對應的DNS 成功率于7月02日18:30 從92下降至20,下降幅度為72個百分點,于07月03日上午04:00開始恢復到目前為止恢復到80左右。

2.2 【問題分析】
2.2.1 PGW 維度分析
統(tǒng)計指標下降前后(17:00-17:30和19:00-19:30)兩個時段成功率對比情況如下表所示:
廣東東莞端到端信令分析優(yōu)化項目組
Page 2 of 10
,中國移動東莞分公司
通過上表可以看出,有7個主要USER_IP段有明顯下降,下降幅度70。

這7個user_ip(10.16,10.161,10.162,10.163,10.164,10.165,10.166)主要都集中在DOGSAEGW101BHw 設備下面(這里很容易誤認為是PGW 問題)。
2.2.2 域名維度分析
通過異常時段域名維度指標分析,域名“pool.ntp.org ”的失敗占比較高,在DOGSAEGW101BHw 網(wǎng)元維度失敗占比達98,在全網(wǎng)維度失敗占比50。


廣東東莞端到端信令分析優(yōu)化項目組
Page 3 of 10
,中國移動東莞分公司
2.2.2.1 域名(pool.ntp.org )分析
7月2日下午19:00-19:30域名(pool.ntp.org )的DNS 解析失敗嘗試次數(shù)為55850,其中55818次返回ip 為空,成功率非常低。

7月2日下午17:00-17:30域名(pool.ntp.org )的DNS 解析失敗嘗試次數(shù)為6279,其中6046次返回正確IP ,233次返回ip 為空,成功率比較高。

廣東東莞端到端信令分析優(yōu)化項目組
Page 4 of 10

中國移動東莞分公司
2.2.3 用戶IP 維度分析
統(tǒng)計異常時段(19:00-19:30)用戶IP 維度的DNS 成功率,在域名為(pool.ntp.org )的用戶IP 成功率都非常低,大部分集中在DOGSAEGW101BHw 網(wǎng)元(10.164.0.0/16),但是其他網(wǎng)元下面的用戶IP 也存在成功率低的問題,只是訪問量非常小,失敗占比也非常少,詳細情況如下:

可見問題不是出在PGW 設備上,主要問題還是DNS 解析過程中出現(xiàn)問題。
2.2.4 DNS_return_ip維度分析
針對域名為(pool.ntp.org )返回return_ip變化可以看出問題關鍵:
廣東東莞端到端信令分析優(yōu)化項目組
Page 5 of 10
,中國移動東莞分公司
7月2日下午19:00-19:30域名(pool.ntp.org )的DNS 解析失敗嘗試次數(shù)為55850,其中55818次返回ip 為空,成功率非常低;7月2日下午17:00-17:30域名(pool.ntp.org )的DNS 解析失敗嘗試次數(shù)為6279,其中6046次返回正確IP ,233次返回ip 為空,成功率比較高。
2.2.5 其它維度分析
針對CI 維度、SGW_IP維度、TAC 維度以及MME 等維度的分析發(fā)現(xiàn),在這些維度上的DNS 失敗均不存在集中性。
2.3 【問題跟蹤】
截止7月3日下午16:30,指標尚未完全恢復,DOGSAEGW101BHw 網(wǎng)元(10.164.0.0/16)維度指標成功有所提升,主要是域名(pool.ntp.org )的DNS 解析申請次數(shù)明顯下降,所以對指標的影響有所緩解。


廣東東莞端到端信令分析優(yōu)化項目組
Page 6 of 10
,中國移動東莞分公司


DNS 解析嘗試申請次數(shù)明顯下降,從7月2日30分鐘5萬多次下降至1萬多次。失敗占比也明顯下降。
3 GSM/TD-S網(wǎng)絡DNS 分析
3.1 【問題描述】
通過IBS 平臺性能指標監(jiān)控發(fā)現(xiàn),從7月2日下午18:00開始,東莞全網(wǎng)DNS 成功率下降10個百分點左右。
指標走勢如下圖所示:
同時全網(wǎng)TCP 以及GET 指標走勢如下:
廣東東莞端到端信令分析優(yōu)化項目組

Page 7 of 10
,

中國移動東莞分公司


可見,TCP 成功率無明顯波動,而GET 指標則于凌晨0點左右出現(xiàn)下降,2點左右指標恢復正常,無明顯影響。
3.2 【問題分析】
3.2.1 LAN 維度分析
如上所示,指標于LAN3/5均出現(xiàn)不同幅度下降。
3.2.2 GGSN 維度分析
取7月1日與2日20:00-20:30全網(wǎng)DNS 數(shù)據(jù)展開對比分析。
廣東東莞端到端信令分析優(yōu)化項目組
Page 8 of 10
,中國移動東莞分公司

從GGSN 維度來看,各個GGSN 成功率都有所降低,沒有集中性。
3.2.3 DOMIAN_NAME維度分析
提取7月2日20:00-20:30數(shù)據(jù),統(tǒng)計DOMIAN_NAME維度如下所示:
可以看到,失敗主要集中在域名“pool.ntp.org ”之上,統(tǒng)計期間其嘗試次數(shù)高達130多萬次,而成功率僅為0.08,失敗占比高達25.54。
對“pool.ntp.org ”7月1日同時段指標統(tǒng)計如下:
廣東東莞端到端信令分析優(yōu)化項目組
Page 9 of 10

中國移動東莞分公司

可見其失敗次數(shù)在7月2日出現(xiàn)激增,導致全網(wǎng)DNS 成功率下降。
3.3 汕頭DNS 指標走勢
汕頭同事取7月2日的DNS 指標對比發(fā)現(xiàn)在18:30時DNS 解析成功率指標也出現(xiàn)明顯下滑,因此可以判定為DNS 問題,而非核心網(wǎng)絡問題。
可見,汕頭同時段DNS 成功率均存在下降,降幅為10個百分點左右。
4 結論
結合以上分析,域名為(pool.ntp.org )的用戶IP 的DNS 解析成功率都非常低, 懷疑DNS 設備中針對域名為(pool.ntp.org )的解析信息被刪除或者DNS 配置數(shù)據(jù)存在異常;建議下一步要聯(lián)系省公司檢查DNS 設置,排查DNS 解析成功率問題。
廣東東莞端到端信令分析優(yōu)化項目組
Page 10 of 10
