1. 背景与挑战 #
随着云计算、大数据、人工智能、物联网以及5G网络的兴起,数据呈现爆炸式增长,同时也对数据中心建设提出了更苛刻的要求,而如何建设满足未来3至5年业务发展的需要,则是每位数据中心从业者都需要思考的命题。
建设高性能数据中心传统思路主要是一方面推动数据中心网络带宽升级进而带动组网架构升级(即10G/40G模型向25G/100G组网模型演进,进而向100G/400G模型演化);另外一方面则是引入基于SDN Telemetry等智能管理技术使数据中心网络实现自动化、智能化运维管理,最终实现数据中心网络“管控析”融合升级。
(图1:传统数据中心方案升级之路)
但数据中心基础设施三大件:计算、存储近些年都有长足的进步,其中,计算,在CPU基础上,出现了像GPU、TPU等为特定场景、特定业务而生的处理器芯片,计算效率成百上千的提升;存储,在HDD机械硬盘的基础上出现了SSD全闪存产品,存取效率也得到质飞跃。网络虽然出现了SDN技术,但其内核本质还是TCP/IP技术,而TCP/IP处理机制是“尽力而为”,涉及“TCP/IP协议栈处理时延大”和“因协议栈处理机制带来的CPU负载居高不下的问题”,并没有太大的改进:
TCP/IP协议栈处理时延大:
1. TCP协议栈在收/发报文时,需要做多次上下文切换,每次切换需耗费5us~10us左右时延;
2. 以及至少三次的数据拷贝,严重依赖CPU进行协议封装,协议栈就本身就有数十微秒的固定时延,使得在AI人工智能和SSD分布式存储-微秒级系统中,协议栈时延成为最明显的瓶颈;
服务器CPU负载居高不下:
1. 除固定时延问题,TCP/IP还需主机CPU多次参与协议栈内存拷贝。网络规模越大,网络带宽越高, CPU在收发数据时的调度负担越大,导致CPU持续高负载。
2. 按照业界测算数据:每传输1bit数据需要耗费1Hz的CPU资源;当网络带宽达到25G以上(满载),绝大多数服务器,至少50% CPU资源将不得不用来传输数据。
(图2:难道TCP/IP是木桶最短的那块板?)
基于此,TCP/IP的下一跳,到底在哪里?
2. 新华三SeerFabric智能无损数据中心解决方案 #
2.1 技术发展趋势1:RDMA适时而生
传统TCP/IP技术在数据包处理过程中,需要首先经过软件应用和操作系统的处理,需要占用大量的服务器资源和内存总线带宽资源,这一过程中存在多次数据拷贝、中断处理以及处理复杂的TCP/IP协议处理等问题,从而无可避免的就会带来网络时延过大的结果。
RDMA(Remote Direct Memory Access)技术全称“远程直接内存访问”,是为了解决网络传输中服务器端数据处理的延迟而产生的技术。支持将用户应用中的数据直接传入服务器存储区,通过网络将数据从一个系统快速传输至远程系统的存储中。
(图3:TCP/IP和RDMA协议栈处理流程对比)
RDMA技术实现了在网络传输过程中两个节点之间数据缓冲区数据的直接传递,在本节点可以直接将数据通过网络传送到远程节点的内存中,绕过操作系统内的多次内存拷贝,相比于传统的网络传输,RDMA无需操作系统和TCP/IP协议栈的介入,可以轻易的实现超低延时的数据处理、超高I/O吞吐量的传输,基本不需要远程节点CPU等资源的介入,不必因为数据的处理和迁移耗费过多的资源。
RDMA技术最早出现在Infiniband网络,用于HPC高性能计算集群的互联。传统的基于Socket套接字(TCP/IP协议栈)的网络通信,需要经过操作系统软件协议栈,数据在系统DRAM、处理器Cache和网卡Buffer之间来回拷贝搬移,因此占用了大量的CPU计算资源和内存总线带宽,也加大了网络延时。
(图4:RDMA协议的技术优势?)
举例来说,40Gbps的TCP/IP流能耗尽主流服务器的所有CPU资源,RDMA技术则很好的解决了传统TCP/IP通信的技术痛点。例如,在40Gbps场景下,采用RDMA技术的服务器,CPU占用率会从100%下降到5%,网络延时从ms级降低到10us以下,极端场景下甚至会更多,所以RDMA技术带来的优势是显而易见的,同时RDMA技术又可以在数据中心几乎所有业务流量场景都可以采用,比如应用到应用、计算到计算、计算到存储和存储到存储四类场景,并且对于数据中心数据读取效率的提升又显而易见。
(图5:RDMA技术在四类场景流量模拟)
2.2 技术发展趋势2:RDMA技术介绍
现阶段,RDMA网络技术主要为Infiniband、RoCE和iWARP,Infiniband网络主要出现在HPC高性能计算场景,因为其自身技术特点的因素,该技术采用的一切都是专用的,包括应用程序、编程接口、网络协议、网卡、网络设备和硬件接口形式乃至管理软件都是专用的。iWARP基于TCP/IP协议的RDMA技术,由IETF标准定义发布,本文受制于篇幅所限,重点介绍RoCE技术。
RoCE技术基于以太网的RDMA技术,Emulex联合IBTA(InfiniBand Trade Association, InfiniBand行业协会)共同宣布推出,发展至今已经发布两个版本,最新RoCEv2版本,将IB的GRH(Global Routing Header)换成UDP Header + IP Header。 RoCE v2工作在UDP之上,采用UDP 4791端口进行传输,支持路由,所以有时又会称为可路由的RoCE,简称RRoCE。
(图6:主流RDMA技术演化与对比)
2.3 技术发展趋势2:RDMA无损网络技术
RDMA的提出之初承载在无损的InfiniBand网络中,Infiniband网络提供完善的丢包重传机制,对于InfiniBand架构,接收端仅可接收有序报文,如果有丢包发生,会引起流中断;当有丢包发生时,接收端会发送带有PSN (packet sequence number报文序列号) 的NACK (not ACK否认字符) 控制报文到发送端,来重传丢失报文及后续报文。
(图7:基于InfiniBand的重传机制)
但是当RDMA技术应用在以太网中时候,以太网本质是“尽力而为”的网络,因为以太网缺乏完善的丢包保护机制,对于丢包异常敏感,超过0.1%(千分之一)的丢包率将导致网络有效吞吐急剧下降至75%;而1%的丢包则使得网络有效吞吐率几乎下降为0;所以要使得RDMA吞吐不受影响,丢包率最好保证在万分之一(0.1‰)甚至是十万分之一(0.01‰)以下,即最好无丢包。
(图8:传统以太网缺少完善的丢包保护机制)
而原生以太网的设计理念是“尽力而为”的网络,并不是无损网络,因此无损以太网络则需要PFC基于优先级的流量控制(Priority-based Flow Control,IEEE802.1Qbb)、ECN显示拥塞通知(Ethernet Congestion Notification,IEEE802.1Qau)、DCBX数据中心桥能力交换协议(Data Center Bridging Exchange Protocol,IEEE802.1Qaz)和ETS增强传输选择(Enhanced Transmission Selection,IEEE802.1Qaz)四个技术配合完成,其中以太网层主要是PFC、ETS、DCBX;IP层主要是ECN;IB传输层主要是ECN,业务处理流程大致如下:
(图9:RDMA无损以太网计算场景技术全景)
其中PFC和ECN是其中两个必选技术,一般情况推荐,虽然PFC是二层技术,ECN是网络层和传输层技术,但是PFC与ECN能够同时使能,并且推荐在RoCE环境中同时使能,以保证RoCE报文无丢包并且网络带宽得到保证。从充分发挥网络高性能转发角度,一般建议通过调整ECN和PFC的buffer水线,让ECN快于PFC触发,即网络还是持续全速进行数据转发,让服务器主动降低发包速率。若还不能解决问题,再通过PFC让上游交换机暂停报文发送,虽然整网吞吐性能降低,但是不会产生丢包,两大技术相互配合以期最终实现网络无损。
2.4 新华三SeerFabric智能无损数据中心方案全景
借助新华三在网络领域近20年的积累和行业客户业务的理解,新华三发布SeerFabric智能无损数据中心解决方案,解决方案整体基于云边AI协同架构,能够借助智能学习为不同业务场景构建智能无损控制模型,并能实现对业务场景的智能识别,进而完成相应模型参数的动态匹配,以大带宽、低时延、零丢包的精确转发和可确定性网络体验,广泛服务于互联网、政府、金融、生产娱乐、高性能计算等重要行业和领域的数字化转型。
(图10:新华三SeerFabric智能无损数据中心解决方案架构)
新华三SeerFabric智能无损解决方案覆盖计算、存储、网络交换、管理控制、性能展现与优化端到端的大带宽、递时延、零丢包的精确转发和可确定性网络体验,从解决方案架构上,又可划分为管控析层和ICT基础设施(网络、计算、存储)层,从应用场景上主要分为传统计算场景、存储网络场景和高性能计算三大场景,要做到三大场景统一融合,管控析层是最为至关重要的环节,主要是智能控制引擎SeerEngine和智能分析器SeerAnalyzer来承载实现。SeerEngine实现构建基于场景的业务流量模型和模型匹配,实现智能无损网络的动态控制;SeerAnalyzer实现端到端精细化数据采集和无损性能状态可视,并依据性能状态数据使用AI-ECN算法完成网络设备ECN水线的动态智能调优计算。
新华三 AI-ECN充分实现了数据、智能算法和专业知识的结合,为新华三SeerFabric智能无损解决方案智能化赋能。
端到端细粒度的性能指标Telemetry数据采集上,充分挖掘智能网卡、存储、H3C网络设备精细化性能数据采集能力,使得智能算法能够感知RoCE流量成份及大小、网络设备缓存队列的动态变化等;数据项包括接口及队列的各种性能统计指标、以及网络设备侦听的RoCE流会话统计等。同时,通过部署于服务器上的Agent和智能网卡配合,提供RoCE流量的拨测能力,在业务上线之前就可以对网络进行可视化调试调优。支持的RoCE智能网卡包括Mellanox系列网卡、Intel E810网卡等。
在算法上,真实的实验环境采集不同流量模型下的性能KPI,并通过应用的真实体验进行标注后形成训练数据集,结合专家知识建模并离线训练后,生成ECN水线动态调优模型。新华三 AI-ECN调优算法模型具有效率高、计算量小的特点,同时支持控制器集中式调优和网络设备分布式本地调优两种模式。例如,在集中式调优模式下,不需要专用的AI芯片,使用搭载Intel XEON-SP服务器的管控析集群,就可在较大规模网络管理下,开启ECN水线调优;在本地模式下,搭载Intel XEON-D 和 ATOM的新华三网络交换机,仅以较小的CPU开销就可以完成调优。
3. SeerFabric解决方案价值与亮点 #
智能:基于AD-DC应用驱动数据中心
新华三SeerFabric智能无损数据中心解决方案SeerAnalyzer智能分析器支持实现网络及联接的存储和计算资源,基于AI学习及专家知识,对网络,计算,存储资源,构建差异化数据中心场景的智能无损网络分析模型。SeerAnalyzer智能分析器实时监控RoCE基础数据,采集重点关注包括ingress/egress丢包计数/总量、ingress/egressPFC计数/总量、ingress/egress buffer使用情况、ECN、headroom buffer使用、Ingress/egress门限阈值超限次数等等信息;同时分析器还会收集RDMA实时告警上报信息,诸如ingress/egress丢包告警信息、Headroom Buffer超限丢包告警信息、egress buffer超限告警以及通过Netconf操作配置变更信息等关键信息,SeerAnalyzer收集上述网络大数据信息,从而训练基于业务的网络模型,洞察网络,并多维度实时评价、统计、归纳、可视化呈现,进一步实现精准根因分析,并实现异常预测和趋势分析,并最终通过与SeerEngine智能控制器实现智能联动以及网络优化,闭环自愈网络,为用户业务保障护航。
针对AI人工智能计算场景,多打一发送Burst流量时,Buffer不溢出的情况下支持的最大N值,而实现这一需求就需要网络设备工作在“Lossless”无损模式,针对多打一即N:1 Incast模型场景,新华三SeerFabric智能无损解决方案支持通过智能分析器SeerAnalyzer采集网络大数据基于新华三AI算法向网络基础下发参数调优。
新华三SeerFabric智能无损数据中心解决方案支持基于buffer深度调优的基础上,还支持基于链路带宽利用率实现AI ECN调优,比如当链路带宽利用率超过90%、95%以上的时候,交换机通过AI ECN功能实现带宽和时延的业务平衡。
融合:以太网一统三大场景实现数据中心业务大融合
传统存储SAN网络场景一直都是FC(Fabric Channel)光纤交换机的天下,自2017年,全球数据中心存储市场,闪存盘(SSD, Solid-State Drive)市场份额超过机械硬盘(HDD,Hard Disk Drive)至今,已经有行业客户开始把企业生产业务运行在SSD存储上。存储场景NVME-of替代传统FC SAN网络重点需关注:服务器通过手工配置来发现磁盘设备,并和磁盘设备建立长连接。如服务器长时间未收到磁盘设备发送的报文,则认为磁盘设备故障,将存储流量切换到备用路径。
新华三SeerFabric智能无损数据中心解决方案支持智能无损存储网络技术解决方案,即iNOF(Intelligent Lossless NVMe Over Fabric,智能无损存储网络),该技术是一种以太网和存储网络融合的技术,通过和LLDP(Link Layer Discovery Protocol,链路层发现协议)配合使得iNOF内的所有设备可以第一时间自动感知服务器和磁盘设备的加入和离开,以便产品可以智能调整相关配置,最终协助实现存储流量在以太网的无丢包、高吞吐传输。相对于传统NVMe技术,新华三SeerFabric智能无损数据中心解决方案iNOF具备优势:
² 即插即用:当主机接入iNOF网络时,其它已在iNOF网络的主机会迅速发现新加入的主机,并自动发起和新主机的连接。
² 故障智能快速感知:当主机接入iNOF网络的某条链路故障时,iNOF交换机会迅速将该故障通知给iNOF网络中的其它主机,然后其它主机可以智能感知快速跳转。
超宽:大带宽支持400G组网演化
新华三SeerFabric智能无损数据中心解决方案支持主流数据中心交换机产品,即框盒组网,盒盒组网,覆盖10G/40G组网模型、25G/100G组网模型、100G/100G组网模型和100G/400G模型全覆盖;
针对数据中心互联DCI场景,FC带宽底、成本高的劣势,新华三SeerFabric智能无损解决方案提供基于400G超长距离无损网络解决方案,是业界4倍,同时结合新华三智能控制器SeerEngine和智能分析器SeerAnalyzer可以实现存储网络自动化运维管理,有效降低用户运维成本,降低用户工作量。
联系我们