摘 要:作为提供网元传输的通信通道,DCN 在负责对网元进行远程管理时,也负责维护传输稳定性。所以,在工作中 要科学规划 DCN 网络,降低以后应用可能出现的通信故障。本文针对 ECC 路由风暴造成 DCN 网络发生网元脱管问题展开研 究,旨在为更多一线工作人员提供故障处理思路,提高网元脱管修复效率,为网元传输创造稳定信息传输环境。
关键词:ECC 路由风暴 ;DCN 网络 ;网元影响
0 前言
在实际生产中,用于传输通信的众多设施多是以分散 方式布设于工作环境内,使用单独管理会浪费过多成本, 还会降低管理质量,所以需要通过集中管理控制通信设 备。而达到集中管理分散的设备,就要借助 DCN 完成。 DCN 可以提供网络设施接入集中管理渠道,并控制其 通信功能,以监控功能管控通信设备,从而推动集中管 理使用效率。
1 基本概念
1.1 DCN
DCN(Data Communication Network), 该网络通过网管,以及网关、非网关两种网元为基本结构,并由 连接网络负责连接网管与网关构成 DCN 网络 [1]。该网 络内,DCN 节点分为网管与网元两种。其中,网管与网关网元两者之内的 DCN 是外部 DCN,而内部 DCN 则 为两个网元之内的 DCN。对于外部 DCN,在实际应用 时被划分为 LAN 网络与 WAN 网络两种,并使用 TCP/ IP 协议完成通信工作,也有部分使用 OSI 协议。应用场 景多数是网管系统内部通信和,而网管服务器和网元通 信也会应用到外部 DCN ;对于内部 DCN,则是两个不 同网元进行通信, 以 TCP/IP 或 OSI 协议完成通信工作, 并通过 OSC(Optical Super visory Channel), 即光监控 信道,结合 ESC ( Electronical Supervisory Channel), 即电监控信道,共同充当协议的通信管道,是负责承载 信息的有效工具。本文 DCN 多为内部 DCN,在后文中并不会多做赘述。
1.2 DCN 通信协议
DCN 常见通信协议分为使用TCP/IP 协议,完成 DCC/GCC 通信的 IP over DCC 协议,以及 OSI over DCC 协议。 后者多是用在提供 OSI over DCC 通信, 由不同厂商生 产的设备完成混合组网,从而保证组网对于外界干扰拥 有较强抗性。两个或数个网元会利用 DCC/GCC 通道, 对支持 OSI(Open System Interconnection) 通信协议 的数据进行传输。
1.3 DCN 通信通道
OTN(optical transport network) 设备可以为 OSC、ESC 一类通信通道提供传输 DCN 通信协议便利条件。 具体工作则从以下几个方面实现 :首先,OTN 设备利 用 OSC 单元携带的光监控信道,将整个系统中对所有 网元相关信息,包括监控、管理等高效传输,降低传输 浪费的时间成本 ;其次,ESC 通过通信业务所拥有的 固定帧结构优化应用,借助 DCC/GCC 通道,即开销字 节负责运输网元之间的监控信息,从而以支线路板,或 者 OTU 单板对接提供的便利条件,对完成网元之间信 息传递。对于 OSC 与 ESC,两者在具体应用中都拥有 一定功能优势,适用于不同场景,所以在系统中多是将 两者保持默认打开状态,以不同使用条件由系统优化选 取,也可以利用网管对两者状态进行设置。
2 基本原理
2.1 ECC 路由风暴原理
ECC 路由风暴可以理解为在广播数据大量充斥于网 络各处,而网络自己处理能力有限,对于逐渐积累的数 据难以有效处理。而且,这种数据会对网络带宽资源过 多占用,造成业务难以正常运行,产生网络瘫痪,演化 路由风暴。而其基本原理则是因为在 DCN 网络内,网 元和周边网元会保持定期通信,内容则是路由表。而在 整个网络中,任意网元产生路由变化,会让所有网元在 发送路由表时停止当前行为,重新检查内容,再次发 送,造成路由信息会在网络中不停传递。而在表述路由 协议信息的报文大量充斥于网络带宽时,会造成报文反 复被广播。在网络无法有效处理该问题,难以将保温广 播趋势及时收敛,会造成 ECC 路由风暴。其中,广播 的概念就是数据帧、数据包被传递到广播域自行定义的 本地网段节点。而广播发生网段内海量复制,向各个节 点传输数据帧,影响网络性能的原因是网络拓扑最初设计或是后期连接存在问题,为网络留下广播风暴隐患。
2.2 DCN 规划目标
为保证网络正常运行,降低使用出现信息泄露或处 理相关问题,在对 DCN 网络进行规划时,就要将以下 内容作为设计目标 :首先,要求 ECC 子网拥有符合系 统运营安全标准的规模,从源头上降低 ECC 风暴发生概率,提高系统应用稳定性 ;其次,要求单个 ECC 子网要 以主备网关接入作为最低要求,可以根据使用需求对内 容进行改进 ;第三,对于网关网元,同样要求其规模以 运营安全标准为准,在设计时就要考虑到后续应用的数 据传输问题,避免正式投入使用后,因大量数据传递让 单个节点产生过大流量压力,提高系统使用稳定性 ;第 四,网元通信要求增设迂回路由,保证在首次发生断线 问题后,在网元之间仍然可以保持稳定通信。尤其是在信息传输链条的 OLA 站点,则要将稳定通信要求放在 首位 [2]。
3 ECC 路由风暴对 DCN 网络网元影响及其处理方式
3.1 故障现象
某公司内部网络拥有如图 1 所示的网络拓扑图,并 使用 0SN6800 作为网络设备。在 2020 年 8 月发生除网 关网元依旧正常使用,其他网元都出现频繁脱管问题, 造成该公司业务受到严重影响,无法正常开展业务。
图 1 网络拓扑图
3.2 故障处理方式
为检查出现本次问题的原因,需要对各种故障情况 进行分析,逐一排查。
第一, 网元 IP 冲突 [3]。在该网络拓扑图内,存在 两个网关网元,主要负责轮换使用,在一个网关网元出 现问题后,可以将另外一个替换,保证系统正常使用。 为检测当前现有网关网元是否发生故障,现将备用网关网元和当前应用网关网元进行切换,依旧无法有效处理 本次故障,所以将该故障排除。
第二,ECC 通信无法保证稳定传输,发生时断时通 问题。对系统传输数据进行全面查询,分析信息在传输 是否产生误码,造成通信故障。而对网管检查后,并没 有发生异常告警,对光功率检查也显示正常,单波道或是多波道误码情况并未发生。对 OTU 单板检查也未发 现没有高阶误码报告信息,所以将误码故障进行排除。
第三,ECC 通信承担过大负荷,且 DCN 子网超过 安全规范的规模。如果 ECC 通信承担其无法有效处理 的负荷,会让主控板在业务时发生频繁复位问题,进而 造成网元出现频繁脱管,影响系统正常应用。而对该网 络规模进行检查后,获得该系统拥有 23 个网元,低于 50 个网元的网络规模,所以 ECC 通信时发生负荷过重这一故障也被排除。
第四,在网络上拥有持有相同网元的用户同时登录 该网元,造成网络故障。在该网络中,拥有“1+1 热备 份”的两台网管,疑似两者在持有相同网元时同时登 陆 [4]。经过查询后,两台网管是利用 root 与 lct 两种网 元用户身份登录网元,并没有其他 PC 网管在该网络中 登录,所以将相同网元用户同时登录网元这一故障排除。
第五,如果 ESC 与 OSC 同时存在,在系统应用时 发生 ESC 与 OSC 在工作中频繁切换,会让网元发生频 繁脱管故障。如果系统同时拥有 ESC 与 OSC,两者都 处于应用状态时,系统会将 ESC 通信作为最高优先级。 如果在这种情况下产生误码,会造成业务链路无法维持 稳定状态,进而引起 ESC 通信问题,造成 ESC 与 OSC 不受系统控制,发生频繁切换,让网元出现频繁脱管故 障。而在第二步检查后,发现该网络在使用时没有发生 过误码问题,所以将该故障进行排除。
第六,ECC 路由风暴。对网关网元内部路由表 ecc- route 进行查询后发现,在路由表内存在百余条 ECC 路 由,可是在系统中仅存在 23 个 6800 网元,从基础逻辑 上并不是这些网元产生的路由信息。进一步对网元 ID 统计后,发现在路由表中查询获得超过网元生产上限的 ECC 路由,都是由错误网元 ID 产生。所以,初步判定 该问题产生原因是因为某个网元在系统运营时,其 SCC 主控板发生 BIP8 误码,向系统产生大量冗余信息垃圾, 造成系统发生 ECC 网络风暴 [5]。由专业人员于网管上 将系统所有网元设置 ECC 最大转发跳数,将数字定为 5 后,全网通信可以正常使用,彻底消除网元脱管问 题,而对网关网元 ecc-route 进行查询,其也在处理后 恢复正常模式。解决问题后同厂家技术人员联系后,通过专业技术将问题定位至产生该次风险的网元,对 SCC 主控板更换备件后,系统再无频繁脱管问题,业务恢复 正常水平。
3.3 技术要点与处理经验
产生本次网元脱管的问题是受到 ECC 路由风暴, 其产生原因是网络中存在网元在运营时出现误码,对整 个系统正常使用造成影响。所以,可以对网络中网元最 大转发跳数进行更改,将原本数值改小 [6]。经过这种处理后,大量无效 ECC 路由在后续系统应用时,会快速 进入老化状态,并不参与到系统运营,从而达到过滤无 效 ECC 路由目的。在经过技术排查后,得到 ECC 路由 风暴对 DCN 网络网元造成频繁脱管这一结论。从中可 以整理几条处理经验 :首先,企业要强化技术人员专业 培训,在以后发生类似问题时可以尽快排除故障,降低企 业损失 ;其次,要在日常工作中提高网络应用安全意识, 及时分析系统风险,力求将风险在隐患阶段有效根除。
4 结论
在环形网络拓扑中,常见的 ECC 路由风暴所示因 为 ESC 成环,造成工作误码不断累加,造成广播风暴。 所以,需要于 DCN 网络内科学划分 ECC 子网,并对 子网进行隔离,对复杂网络拓扑结构简化,降低过于复 杂环形网络出现概率,提升网络传输信息安全性。
参考文献
[1] 熊丽婷,张绍彪,揭吁菡.两种高吞吐量低延迟光数据中心网 络架构研究[J].光通信研究,2020(6):21-24+80.
[2] 李松州,束永安.基于流调度选择的DCN动态负载均衡算法 [J].计算机应用研究,2019.36(1):199-202.
[3] 张钊,李海龙,董思歧,等.基于SDN的数据中心网络流概率路 径选择方法[J].计算机工程,2019.45(4):36-40.
[4] 何兆贤.基于最小网络流量平衡的铁路传输网DCN网络优 化探讨[J].电子世界,2020(1):55-56.
[5] 周忠华,彭智朝,赵志鹏.数据中心网络光电交换架构下的流 调度算法研究[J].计算机工程与应用,2018.54(16):113-118.
[6] 常坤,赵敏,刘磊,等.协议无关的数据中心网络源路由机制研 究[J].计算机系统应用,2018.27(5):10-16.
可解释性是一个非常重要的标准。机器学习模型... 详细>>
如何设计有效的环境治理政策, 是学术界和政策... 详细>>