近几年随着IT技术的迅猛发展,绝大部分的新技术、新应用背后几乎都有“交换机”身影,比如云计算、大数据、SDN等应用。大数据的应用推动了数据流量以几何度的快速增加,对交换机的稳定性要求越来越苛刻,任何短暂的业务中断所丢失的信息量都是不可估量的。这就为高端交换机的硬件研发设计和规划提出了极限挑战。交换机硬件架构的设计不再仅仅考虑是否硬件冗余,是否具备快速切换能力了,而是要求如何规避小概率事件、如何减少不必要的“故障修复”,从而保障“稳定状态”长期稳定。
迈普“神盾”S12800定位在云计算、数据中心应用场景下推出的高性能核心产品,为了适应未来海量数据交换需求,将不可见各类硬件隐患消灭在“萌芽”状态,在产品硬件设计上做了大量基础增强稳定性方面的布局:比如“100%无硫器件采购”“关键部件纳米工艺”“元器件全程追溯”“硬件设计外援独立评审”,在稳定性验证上加大测试覆盖面,完成“七大系统、128项硬件测试”等等。在硬件架构冗余设计上,更是突破传统思维进行了很多优化和创新。
上图就是突破传统硬件架构冗余设计思路的一个典型设计:DCC(Design of closed loop channel redundancy)闭环通道冗余设计。
传统机架式交换机的硬件设计思路是:每张业务板卡分别出两条硬件管理通道分别与两张主控板卡互联,实现主控板卡对业务板卡的日常行为管理。(前期介绍MCP-CPU保护技术时对该管理通道功能做过相关介绍);
DCC模式设计:考虑到高端核心设备绝大情况下都会部署冗余主控板卡,创新性的在两张主控板卡之间再独立连接一条管理通道,这样任何一张业务板卡到任何一张主控板卡的管理通道都会形成一个物理闭环设计。
DCC是闭环管理通道技术的统称,里面又细分为:链路状态管理OAM、主备链路管理MLM(Master link management)、负载链路管理LLM(Load link management)、业务耦合校验SCC(Service coupling check)等;各子功能模块简单理解如下:
链路状态管理OAM:简单理解就是对闭环管理通道的链路状态、链路通信质量、链路切换、链路异常隔离等进行时时检测和管理;
主备链路管理MLM:就是当闭环通道采用主备链路模式转发管理数据的时候,链路优选及报文传输校验等方面检测和管理;
负载链路管理LLM:就是当闭环管理通道采用双链路负载模式转发管理数据的时候,报文转发、乱序整合及报文传输校验等方面检测和管理;
业务耦合校验SCC:就是闭环管理通道与主控板卡的状态同步,报文的上载和下载与主控板卡时时保持同步,随着主控板卡切换,报文上载、下载通道同步保持切换;
技术对比分析:
DCC硬件架构由于将业务板卡管理通道从独立双通道升级为环形管理通道设计,所有业务板卡的管理数据转发层面上就形成了a、负载;b、主备、两种转发模式;默认情况下优先设置为主备通信模式,通道切换借助内部OAM检测机制可确保<30ms内完成通道切换,“异常”通道切换过程与数据转发平面无关,业务数据正常转发;同时业务板卡不复位、管理平面不震荡,各网络协议运行正常,整个过程无需人工干预。
为了发挥DCC硬件架构设计所带来高稳定性优势,迈普在S12800主控板卡上增加了一张独立管理通道交换芯片,虽然硬件成本提升不少,但实实在在获得了各业务板卡管理通道硬件上的升级,从整体架构应用效果看S12800交换机DCC模式的引入a、业务板卡异常处理及恢复机制效率提升50%;b、数据瞬间丢失概率降低70%;c、人为干预故障处理比例降低50%。