• 首页 >  互联网 >  互联网产业
  • 中国电信:2024年面向数据迁移的超算快线技术白皮书(42页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《中国电信:2024年面向数据迁移的超算快线技术白皮书(42页).pdf》由会员分享,可在线阅读,更多相关《中国电信:2024年面向数据迁移的超算快线技术白皮书(42页).pdf(42页珍藏版)》请在本站上搜索。 1、面向数据迁移的超算快线技术白皮书智联计算网络系列技术白皮书面向数据迁移的超算快线面向数据迁移的超算快线技术白皮书技术白皮书中国电信股份有限公司研究院中国电信股份有限公司研究院2024 年年 8 月月面向数据迁移的超算快线技术白皮书版权声明版权声明本白皮书版权属于中国电信股份有限公司研究院及其合作单位所有并受法律保护,任何个人或组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:中国电来源:中国电信股份有限公司研究院等信股份有限公司研究院等”。否则将违反中国有关知识产权的相关法律和法规,对此中国电信股份有限公司研究院有权追究侵权者的相关法律责任。面向数据迁移的超2、算快线技术白皮书1编写说明编写说明主要编写单位:主要编写单位:中国电信股份有限公司研究院参与单位:参与单位:(排序不分先后)中兴通讯股份有限公司、新华三技术有限公司、华为技术有限公司主要编写人员:主要编写人员:(排序不分先后)傅志仁、梁洁、黄灿灿、渠文宽、张慧月、黄卓君、马培勇、庄一嵘、曾其妙、潘庆撰写团队联系人:撰写团队联系人:中国电信股份有限公司研究院梁真铭面向数据迁移的超算快线技术白皮书2前言算力网络作为国家新型基础设施的一个组成部分,其目标为推动算力成为水电一样,为用户提供“一点接入,随取随用”的服务。2023年 12 月,国家发改委等五部门发布关于深入实施“东数西算”工程加快构建全国3、一体化算力网的实施意见,提出要通过网络连接多源异构、海量泛在算力,实现资源高效调度、设施绿色低碳、算力灵活供给、服务智能随需,提高用户使用算力的易用性。在当代的数字化浪潮下,数据成为生产力发展的重要基石。千行百业数字化转型,带来了数据量高速增长。根据全国数据资源调查报告,2023 年,我国数据生产总量达 32.85ZB(泽字节),同比增长22.44%,这些海量数据迁移对网络的运力服务提出了巨大的挑战。本白皮书首先分析了数据迁移背景以及核心网络需求,提出了服务使能层、业务核心层以及业务承载层的三层超算快线网络架构,结合任务式服务、资源按需保障、高可靠安全以及高带宽吞吐等关键技术,为用户提供泛在接4、入、普惠高效、算网协同、随接随用、按需供给、安全可信的数据传输服务。接着介绍了超算快线的任务式业务、弹性业务以及固定带宽业务三种业务模式,最后给出了典型应用场景以及现网实践,并发出了产业共同发展超算快线的倡议。目前超算快线尚处于业务推广阶段。本白皮书旨在推动全国各超算中心/智算中心、大型数据中心,以及有数据迁移需求的各科研机构、高等院校、企事业单位,共同推进超算快线在数据迁移中的商业面向数据迁移的超算快线技术白皮书3应用。同时,中国电信希望进一步加强与各算力中心的技术合作,持续推进全国一体化算力网建设,进行算网协同、弹性大带宽、安全可信接入等核心技术攻关,助力网络强国、数字中国建设,打造中国式5、现代化的数字基座。面向数据迁移的超算快线技术白皮书4目目录录1 背景.61.1 国家政策.61.2 行业驱动.72 数据迁移网络新需求.82.1 数据迁移面临的问题.82.2 数据迁移的核心网络需求.103 超算快线网络架构.113.1 服务使能层.133.2 业务核心层.143.3 业务承载层.164 超算快线关键技术.184.1 任务式服务.184.1.1 灵活组网.184.1.2 弹性带宽.194.1.3 跨域协同.204.2 资源按需保障服务.214.2.1 业务流量识别.214.2.2 确定性切片.214.2.3 业务随流检测.224.3 高可靠安全服务.234.3.1 网元设备安全6、.23面向数据迁移的超算快线技术白皮书54.3.2 网络传输安全.244.3.3 业务流量按需隔离.254.3.4 好友关系维护.254.4 高带宽吞吐服务.264.4.1 传输层协议优化.264.4.2 广域 RDMA 技术.274.4.3 负载均衡技术.275 超算快线业务模式.286 超算快线典型应用场景.306.1 东数西存.306.2 算力互联.306.3 科学计算.316.4 影视制作.327 现网实践.337.1 业务需求背景.337.2 网络建设方案.347.3 业务效果.358 产业倡议.36附录 A:术语与缩略语.38参考文献.39面向数据迁移的超算快线技术白皮书61背景背7、景1.1国家政策国家政策算力是数字经济时代的新质生产力,人类社会正在迈向万物感知、万物互联、万物智能的“算力时代”,算力深刻影响着人们的生产方式、生活方式、科研范式以及未来的数字化生存图景,已成为数字经济的新主角。提升算力水平、做强算力产业,已经成为全球 40 多个国家的战略共识。随着数字经济的发展,国内算力布局也在不断优化。2021 年 3月,“十四五”规划指出:“加快构建全国一体化大数据中心体系,强化算力统筹智能调度”;2023 年 2 月,中共中央、国务院引发的数字中国建设整体布局规划中指出:“要夯实数字中国建设基础。系统优化算力基础设施布局,促进东西部算力高效互补和协同联动”。在国家政8、策指引下,以新型数据中心、超算中心、智算中心为代表的算力基础设施正加速部署。截止目前,我国已启动建设 8 大国家级算力枢纽节点和 10 个数据中心集群,已建成十多个国家超级计算中心,超 40 个城市在建智算中心1。为推进全网一体化算力网建设,2020 年 9 月,我国成立“东数西算”联盟;2022 年,全面启动了“东数西算”工程,在国家“东数西算”政策的推动下,资源充裕的西部地区将承接东部地区的大量算力需求,带来了大量的数据跨域传输需求,网络传输效能尤为重要;2023 年 12 月,国家发改委等五部门发布的关于深入实施“东数西面向数据迁移的超算快线技术白皮书7算”工程,加快构建全国一体化算力网9、的实施意见中提出:“到2025 年底,用户使用各类算力的易用性明显提高、成本明显降低;逐步建立随取随用、灵活配置、按需收费的算力服务新模式;采用弹性带宽、任务式服务、数据快递等创新模式,降低单用户国家枢纽节点间网络使用成本;促进向随接随用、按需付费等短租模式转变,满足多元化市场需求,显著降低算力使用成本,提升中小企业算力使用便利度”。国家政策提出的算力服务普惠易用、随接随用、灵活配置、按需收费等特性为长距离海量数据传输提供了方向标。1.2行业驱动行业驱动在当代数字化浪潮中,数据是生产力发展的重要基石。千行百业数字化转型,激发经济市场新动能。随着数据量的不断增加,传统本机计算已无法完成海量数据的10、分析处理,数据上云及云计算已成为主流趋势。在这一数字化变革中,为完善数据创新大环境,数据流通已成为数字经济市场不可或缺的关键部分。(1)行业数字化转型,数据计算量持续增长行业的数字化转型是数字时代的发展趋势。数字化促进了各行各业的智能转型,也促进了行业发展的变革,由此带来的数据计算量急剧增加,越来越多的行业对机器处理数据能力的要求越来越高。如基因测序、视频渲染等行业每年产生的数据量都近 PB。传统计算能力已无法满足计算需求,亟需将数据迁移至更高效的数据中心进行计算,网络需提供高效传输的能力,满足用户不断增长的大数据迁移需求。面向数据迁移的超算快线技术白皮书8(2)科学观测能力提升,带来海量科学11、计算数据随着技术的飞速发展,科学观测仪器能力不断提升,源源不断地产生大量的科学数据。如卫星遥感、气象观测、宇宙观测等每年产生数据已PB级,超算需求十分旺盛。以高海拔宇宙线观测装置LHAASO为例,LHAASO 每年产生 10PB 宇宙观测科学数据需要传输到算力站点处理。面向科学观测产生的海量计算数据跨域迁移问题,亟需网络能够提供普惠高效传输能力。(3)AI 大模型爆发,算力需求指数级增长AI 技术蓬勃发展,大模型应用迎来爆发期,算力需求指数级增长。英伟达表示“在未来的 10 年里,会把深度学习的计算能力再提高 100 万倍”。根据 OpenAI 的估算,目前大模型训练对算力的需求大约每 3 至12、 4 月翻一倍,远超摩尔定律 18 至 24 个月翻倍的速度,算力仍存在巨大缺口。在算力需求增加的同时,大模型的训练以及推理过程对网络的运力服务也提出了更大的挑战。2数据迁移网络新需求数据迁移网络新需求2.1数据迁移面临的问题数据迁移面临的问题在科学计算、影视制作、基因测序等数据传输场景中,当前主要有两种方式:一是通过硬盘快递的线下迁移,二是通过运营商网络的线上迁移。硬盘快递方式通过专人在数据源端进行拷贝,然后通过物流快递面向数据迁移的超算快线技术白皮书9或者专人运输,最终在数据消费端执行上传操作。通过完善的物流体系以及较为便宜的快递费用,该方式是目前实现海量数据传输的主要解决方案。但其时效性13、差,硬盘数据的拷贝、路上运输以及上传都需要耗费时间;同时为了减少快递/运输次数,一般将数据积累几天之后,再进行统一迁移,这些都导致数据不能及时进行处理。安全风险高也是其面临的一大问题,线下搬运面临着硬盘损坏和丢失的风险,同时涉及到个人隐私的泄露以及商业利益的损害。运营商网络的线上迁移模式,又可分为以下两种方式:一种是通过互联网的方式,该方式价格便宜、获取方式简单,但在安全隔离方面和性能保障上存在着问题;第二种是通过专网的方式,包括光传输OTN 网络、L2/L3 VPN 网络以及 SD-WAN 技术。光传输资源用户占用独享,传输速率高并且安全隔离性强,适用于大带宽、高稳定的互联场景,但其接入成本14、高、获取周期长。IP VPN 网络统计复用特性使其成本较低,逻辑隔离方式可提供安全保障,覆盖范围广使其获取方式简单,使其非常适合需要低成本、大带宽、广泛接入的海量数据传输业务。但当前 IPVPN 网络仍不具备灵活弹性、带宽可调、随用随连的能力,在临时性的、突发性的海量数据传输场景下网络利用率低,性价比不高。SD-WAN 技术可将广域网上分散的企业分支、总部以及数据中心连接起来,支持快速开通以及实现差异化的保障,但其当前仍属于 OTT 业务,基于无线、传输和承载等物理网络上利用隧道技术创建 Overlay 虚拟网络,对下层的基础链路管控存在一定的滞后性;同时,其使用 SD-WAN 控制器对 ov15、erlay 网络进行集中管理,面向数据迁移的超算快线技术白皮书10在涉及到跨域场景时编排难度大、端到端管理复杂,难以满足超智算业务承载时用户按需、灵活、跨域、安全可信、快速的开通需求。2.2 数据迁移的核心网络需求数据迁移的核心网络需求如何将算力应用所需海量数据从客户侧传输到算力资源提供方是目前网络亟需解决的痛点。以基因测序为例,50TB 的基因测序数据,如果通过 500Mbps 专线传,需要耗时 223 小时;如果采用 10Gbps专线,仅用 11 小时,但是当前专线采用固定带宽按月或者按年计费,成本高,远高于企业承受力,而且企业并不是每天都在传超大数据,性价比低。因此当前用户普遍采用寄送硬16、盘方式实现数据入算,但这种方式影响到算力业务的便利使用,大规模数据传输成为制约算力资源利用的瓶颈。为满足用户数据迁移需求,网络首先需具备基础的长距离大带宽高速传输能力。在此基础上,提供弹性、按需、可信的连接能力,并使能运营商的新业务形态和新商业模式。核心网络需求包括:(1)算网协同:IP 网络需感知算力业务承载需求,为一个特定的 overlay 业务连接,按需提供 underlay 物理资源保障,实现业网协同、连接管控。(2)按需随建随拆、灵活组网:传统专线资源长连接,但并非所有用户都具有长期不间断的大数据传输需求,导致网络资源浪费,且用户使用成本高;同时传统专线具有固定的接入起点终点,无法支17、持灵活的算力组网、调度。因此,网络需能够根据用户需求在用户所面向数据迁移的超算快线技术白皮书11需起点和终点之间快速实时建立业务连接,在服务结束后,拆除连接,释放资源,为用户提供按需的连接与资费,满足用户突发业务需求,降低用户支出。(4)弹性大带宽:传统传输专线无法提供弹性服务能力,必须按最大弹性带宽需求在传输系统上逐段占用,会导致一定的网络资源浪费,成本太高导致中小企业用户难以负担得起。因此,网络需具备弹性大带宽能力,满足用户弹性资源需求,进一步实现网络资源的充分利用。(5)泛在接入:为提供用户使用算力资源的便捷性,网络需具备泛在接入广覆盖的能力,支持用户通过多种方式灵活接入。就像水、电一样18、,算力资源可做到随用随取。(6)可信可靠:网络需具备可信可靠的能力,以严格保障用户传输数据的安全可靠。(7)跨域协同:对于用户跨域甚至跨运营商的数据传输需求,网络需具备跨域协同能力,满足网络资源及业务的端到端灵活调度。3超算快线网络架构超算快线网络架构TCP/IP 协议采用分层解耦的细腰模式,上部多种应用统一承载,下部异构底层介质灵活互通,IP 协议位于细腰部上下桥接业务和承载介质。这有效降低了 IP 网络的复杂度,为业务应用、承载介质提供了强大的开放性。无连接状态的特性,使得连接状态只保留在两端,面向数据迁移的超算快线技术白皮书12与网络内部无关,进一步降低了 IP 网络的复杂性,提高了网络19、的抗损毁能力2。但不同于传统消费者业务的尽力而为转发,超智算业务对 IP 网络提出了不同的差异化承载需求,分层解耦原则在一定程度上割裂了应用层和网络层,网络无法感知不同算力应用连接的承载需求,从而也无法选择对应特性的转发资源对不同应用进行精准的确定性承载。无连接原则也隔离了收发通信两端以及中间的网络,使得终端也无法感知网络的状况。因此需要对现有 IP 网络架构进行创新,根据不同应用需求提供不同的网络承载能力,满足不同场景不同时刻不同大小的数据长距离传输要求。超算快线业务网络架构包含服务使能层、业务核心层以及业务承载层三层,可为基因测序、科学计算、云间存储、影视制作、人工智能等多种数据传输业务提20、供服务。网络架构如图 1 所示。值得一提的是,本白皮书提到的超算快线技术,并不单单只针对超级计算,其适用于所有的数据迁移业务。面向数据迁移的超算快线技术白皮书13图 1 超算快线网络架构3.1服务使能层服务使能层服务使能层通过面向用户的统一 API、SDK 或者服务平台等,根据各类应用传递过来的业务需求,按需调用网络能力、分配网络资源,生成网络能力和业务能力的组合。根据超算快线业务突发性的、临时性的数据传输需求,以及其对安全隔离、传输时间、网络使用成本方面的考虑,网络需提供随用随连、安全可靠以及任务式服务等业务能力。需要使用数据迁移的用户,可通过运营商提供的 API 接口或者服务平台,线上使用21、超算快线服务。用户可以自助选择数据传输的目的地址(超算中心、智算中心或者云资源池等),并根据传输数据量、面向数据迁移的超算快线技术白皮书14传输时间、传输成本以及安全隔离等要求,自定义网络传输参数,包括传输带宽、传输路径、传输时长,选择夜间定时加速或者即刻发起业务。用户可自定义计费策略,根据自身业务特点,选择传输带宽、传输距离、使用时长、传输流量、使用次数的一个或多个维度进行灵活计费。3.2业务核心层业务核心层业务核心层根据服务使能层传递过来的业务请求,为用户提供弹性带宽、安全隔离、灵活组网、确定性资源保障以及按使用量灵活计费等网络能力。通过与业务承载层接入终端和业务超级网关的南向接口,实现上22、层超智算业务与底层网络承载的拉通,为用户提供灵活、高效地端到端数据低成本传送服务。为实现上述网络能力,参照目前业界普遍采用的服务化架构,如图 2 所示,业务核心层将传统的网络功能进一步划分为多个自管理的网络功能服务,各网络功能模块相互解耦、高度自治,通过标准化的接口进行连接来对外提供服务。这种架构充分考虑了 IP 网络功能的可扩展性,根据各种业务需求,可按需将不同的网络功能服务进行组合。各网络功能服务可进行物理机部署或者云化部署。下面对一些功能做介绍:面向数据迁移的超算快线技术白皮书15图 2 业务核心层(1)终端接入控制功能:通过线路认证、独立硬件标识或者接入终端 ID 等方式对终端进行合法23、性认证并纳管终端,维护终端的附着状态、位置信息和能力信息,根据业务需求向接入终端下发转发、分流和安全等网络配置;(2)业务控制功能:通过用户签约时使用的用户名+密码、手机号+验证码等方式实现用户的接入认证,实现合法用户可正常附着于网络、非法用户被拒绝,保证用户的安全可靠接入。当接收到临时性数据传输需求时,业务控制进行通信双方的端到端寻址,完成业务连接的建立。业务控制可实时感知网络资源的使用情况,对每次业务连接资源的申请和释放均保持记录。当网络资源无法满足新的业务连接资源申请时,可通知用户降级或拒绝申请请求。当数据传输完成后,对业务连接进行拆除,释放的网络资源供其他用户使用。(3)资源保障功能:24、通过与超级业务网关的交互,网络连接控制已经成功建立业务连接进行 QoS 策略和业务分流,确保业务连接质量满足数据传输业务的应用需求。QoS 策略通过配置流分类规则、流行为等,实现业务流量的优先处理转发以及对用户接入带宽的灵活面向数据迁移的超算快线技术白皮书16调整。业务分流可采用基于 IPv6+体系的 SRv6 Policy、FlexE 切片等技术,根据业务需求和通信双方两端位置,规划好终端附着点之间的转发路径,确保数据传输业务连接的质量和体验。(4)计费功能:根据服务使能层接受的用户计费策略以及从业务承载层采集到的业务流量、使用时长、带宽等信息,对数据传输业务进行计费。相比于传统的固定带宽包25、月收费方式,计费功能可提供按使用量灵活计费的能力,降低用户网络使用成本。3.3业务承载层业务承载层如图 3 所示,业务承载层作为提供数据运输的物理载体,为通信双方之间构建按需随用随接、确定性保障以及安全可靠的网络通道,包括了接入终端、超级业务网关、路由器等网络功能实体。这些网络功能实体,可构建在专用硬件资源上,也可以构建在虚拟化或云化资源上,用于提供带宽、QoS、切片、源路由/SRv6 等业务流量承载相关的能力。图 3 业务承载层面向数据迁移的超算快线技术白皮书17接入终端部署在需要数据传输的企业侧或者通过裸金属、虚拟机、容器等供给形态来提供存储资源、计算资源的超算中心、智算中心或数据中心侧,26、对接内网的服务器、个人电脑或者防火墙等。其作为企业端侧数据迁移的出口网络设备,提供光纤、PON、Internet、5G 等多种方式的泛在接入能力,同一终端也可以同时提供两种接入方式,比如光纤+5G、PON+5G 等方式来实现业务的多接入线路备份或负载分担。接入终端具备以下功能:向业务核心层发起合法性认证,并实时或周期性地上报位置以及附着状态信息;接收业务核心层下发的业务策略,针对用户的突发性、安全隔离性数据传输需求,实现按需灵活弹性组网、安全可靠接入。超级业务网关与接入终端构建 overlay 的 IPv6 隧道,作为接入终端的接入锚点和业务策略的执行点,与业务核心层进行协同,根据用户业务需求27、,进行网络资源的按需调度与分配。其可部署在城域网负责用户的接入和业务连接建立,也可部署在云算力资源侧负责用户到多云多算力的灵活连接,承载端-端、端-云算力、云间算力等多种业务流量。接入终端通过 PPPoEoIPv6、IPoEoIPv6 等隧道技术实现到超级业务网关的 overlay 接入,接入网可使用 STN、OTN、PON 等多种灵活的接入方式。超级业务网关具备以下功能:基于接入用户的认证鉴权状态,确定用户是否可接入网络、正常使用网络资源;接收业务核心层下发的业务策略实现临时性业务连接建立、弹性带宽调整、计费、业务连接老化/拆除等功能;基于业务的确定性/差异化承载的服务需求,将数据传输流量分28、流到相应服务等级的保障网络平面。面向数据迁移的超算快线技术白皮书18为满足不同业务的差异化承载需求,业务承载层在同一张物理网络上构建了多个并行的转发平面,每个平面均提供特定网络和资源,分别满足不同的业务承载需求,不同平面间的资源可以共享,也可以独享。根据对数据传输业务中安全隔离、传输时间、传输成本等要求,将业务流量导入不同的网络转发平面。4超算快线关键技术超算快线关键技术4.1任务式服务任务式服务对于目前普遍存在的临时性、突发性的数据传输需求,用户可通过任务式服务技术按需使用网络资源,实现随接随用、用完即停的数据传输服务。此技术可有效降低用户使用网络传输数据的成本,吸引更多用户使用网络来实现数29、据迁移,也可进一步提升算力中心的使用率。任务式服务技术主要包括灵活组网、弹性带宽以及跨域协同等技术。4.1.1 灵活组网灵活组网数据传输的第一步就是实现数据传输双方之间的网络互联。传统专线连接包括用户线上或线下申请、运营商 IT 系统受理、工单下发以及外线施工等多个繁琐的步骤,这会导致业务开通时间周期长,同城专线开通需要 20 天,跨城专线需要 30 天。而且传统专线为长连接,无论用户是否在传输数据,都会维持连接状态,对于突发性的数据传输需求,这种方式会造成网络利用率低,性价比不高。面向数据迁移的超算快线技术白皮书19灵活组网技术支持用户通过线上服务平台或者 API 接口下发网络互联互通需求,30、提供两端需互通的内网地址,业务核心层根据用户标识、码号等信息进行寻址,定位接入终端所在位置。之后,实时向业务承载层网元下发策略,实现端到端网络秒级打通;同时根据数据传输业务的安全隔离需求,需要隔离的不同用户之间的业务引入不同网络切片物理隔离通道或者 VPN 逻辑隔离通道。当业务传输完成后,业务核心层实时拆除连接,节省网络资源,实现网络资源的最大化。灵活组网技术不仅支持点对点组网,还具有三方或者以上的灵活便捷、安全可信、快速拉通组网的能力,满足各方之间数据传输的即时需求。4.1.2 弹性带宽弹性带宽在数据传输业务场景下,不同用户的传输数据量或者同一用户在不同时间段的传输数据量均存在较大差异。但传31、统专线在用户申请业务时,需要确定用户接入带宽,并长期维持该带宽,同时用户也需要按包月固定带宽的模式支付费用。弹性带宽技术通过业务核心层的业务控制功能,对每个业务连接均进行不同的网络能力资源的分配和独立的生命周期管理。当用户有临时性的数据传输需求时,可通过服务门户或者 API 接口对已经建立的业务连接提升链路传输带宽,业务核心层接收到需求时,核查网络资源是否满足带宽需求;如满足需求,通过触发超级业务网关,实现带宽的秒级提升;如不满足需求,拒绝用户申请需求或者通知用户进面向数据迁移的超算快线技术白皮书20行带宽降级。超算中心、智算中心或者数据中心需要同时为多个用户提供存储、计算服务,在不需要新增物32、理接入链路的条件下,弹性带宽技术可对每个业务连接实现精细化地管理。用户可根据自身业务需求对某个确定的业务连接发起带宽调整需求,实现网络资源的按需分配以及单独的计费。4.1.3 跨域协同跨域协同当前数据迁移场景中,存在着需要跨地市、跨省甚至跨运营商之间的灵活互联互通需求,可通过在全国部署一套 IP 业务核心层,通过集中式控制的方法纳管全国的接入终端以及超级业务网关。该方式可以从全局的角度优化网络性能,但是当涉及到不同运营主体时,需要将各自的业务承载层接口开放给业务核心层,根据业务需求实现端到端的网络资源按需调度。随着业务连接数量的不断增加或者各运营主体间希望通过分域单独运营的方式,可以采用跨域协33、同的技术实现。如图 4 所示,各运营主体可以独自部署接入终端、超级业务网关以及 IP 业务核心层,当需要建立业务连接的源、宿节点分别归属于不同的域时,其连接建立请求、SLA 需求和资源需求等参数,由发起方传递至响应方的 IP业务核心层,双方进行寻址确定源、宿位置,并分别核查自身所能调度的网络资源,协商该连接是否可以建立。在此过程中,一方不需感知另一方的网络功能实现细节,只需向其传递需求并等待响应。面向数据迁移的超算快线技术白皮书21图 4 跨域协同4.2资源按需保障服务资源按需保障服务面对用户对不同带宽、不同时延和不同 SLA 的差异化网络承载诉求,需要按需实时为通讯终端之间分配和映射 Und34、erlay 网络能力和资源,满足数据传输的定制带宽、低延时、高可靠服务。主要技术包括业务流量识别、确定性小切片以及业务随流检测等技术。4.2.1 业务流量识别业务流量识别业务流量识别技术支持基于转发报文的目的 IP、源 IP、目的端口、源端口、应用层特征等多种方式对流量进行识别。当同一用户的多种业务流量叠加在一起,通过业务流量识别技术在接入终端或者业务网关处将不同类型的业务流量进行区分,实现对指定的数据流量进行带宽提速或者引入到专用的优先级通道中,并进行流量统计和计费。4.2.2 确定性切片确定性切片根据用户在流量传输过程中对确定性的时延以及抖动、资源安全面向数据迁移的超算快线技术白皮书22隔35、离以及高可靠保证的诉求,超算快线通过确定性切片技术实现在同一个共享网络基础设施上提供多个逻辑网络,实现不同用户业务间流量的隔离以及安全性保障。确定性切片主要包括 FlexE 切片技术以及IP 确定性切片技术。FlexE 切片技术基于在 PHY 层和 MAC 层中间新增的 shim 层,实现数据链路层速率和物理层速率的解耦,对 FlexEGroup 内的多个 PHY 层带宽进行捆绑、通道化以及子速率处理,MAC层可实现最小颗粒度为 5G 的物理资源隔离。对于更细颗粒度(M 级)的专用切片通道需求,IP 确定性切片3技术通过在源地址中引入网络切片标识 Slice ID,指导网络转发设备的各节点使用36、各切片专属的带宽资源进行流量的转发处理。根据业务需求,业务核心层对传输路径中的每台设备节点进行部署,基于切片标识 Slice-ID 为每种业务预留独立的队列带宽资源,各种业务之间的带宽资源相互隔离、资源不会抢占从而实现带宽保障。4.2.3 业务随流检测业务随流检测在现网环境中,不同时间、不用空间下的网络流量负载存在较大的差异。为了提高网络运维及性能监控的及时性和有效性,保障用户的 SLA 承诺,有必要通过业务随流检测技术实时感知业务的时延、丢包以及抖动等性能指标,实现快速故障定位。业务随流检测技术,可实现在 SRv6 BE、SRv6 TE 场景下的端到端检测以及逐跳检测需求。其作为一种带内检测37、技术,对真实业务流进行特征标记,将时延、丢包、抖动等性能指标通过 Telemetry 技术面向数据迁移的超算快线技术白皮书23实时上报,对数据业务流量进行实时监测。4.3高可靠安全服务高可靠安全服务安全可靠的数据传输对于个人、企业、国家来说,都是至关重要的。一旦发生数据泄露或者滥用,会对个人的隐私、企业的知识产权和市场竞争力甚至是国家安全造成不可估计的影响。超算快线采用内生安全技术,避免外挂式或补丁式的安全防护方式,严格保障数据的安全可靠传输,确保用户数据不会被攻击、劫持以及篡改。高可靠安全技术包括网元设备安全、网络传输安全、业务流量按需隔离、好友关系维护等。4.3.1 网元设备安全网元设备安38、全数据传输业务中,网元设备主要包括了 IP 业务承载层的接入终端、超级业务网关以及 IP 业务核心层的各网络功能服务实体,当这些设备受到攻击可能会导致网络设备不可用,失去提供业务承载的基本能力;攻击者获得设备控制权,并将其作为网络攻击的跳板;攻击者获得设备的关键数据信息,造成信息泄露。接入终端需要通过业务核心层合法性认证后才可接入网络,并需要实时或定期上报地理位置以及附着状态等信息,保证接入终端的安全可靠;超级业务网关部署在城域网或者云算力资源侧,业务核心层通过 IOAM、Telemetry 技术实时监测采集各端口状态以及业务流量情况,并针对异常行为及时进行检测和响应。IP 业务核心层的网络功39、面向数据迁移的超算快线技术白皮书24能实体可部署在物理机或云化部署,通过配置防火墙、ACL 策略、VPN 策略等方式实现对接入终端与超级业务网关的纳管,减少设备的攻击面,实现网元层的安全可靠。4.3.2 网络传输安全网络传输安全为了确保数据传输业务流量可以按照预期规划的可信任的路径进行迁移,需要通过链路安全、路由安全以及路径安全等技术手段确保网络传输的可靠性,防止传输数据被泄露、窃取。链路安全是指对网络的链路连接进行认证或按需做加密保护,防止非法链路连接、链路信号窃取等。对于运营商来说,所有链路都是自己建设的,链路天然是安全可信的。同时,可通过 IPSec、量子安全加密等技术在点到点之间进行认40、证以及安全加密,保护用户数据的安全性。路由安全首先需要保证路由协议安全,在业务承载层,路由主要分为 IGP 路由(包括 ISIS 和 OSPF)和 BGP 路由两大类。在建立BGP/ISIS/OSPF 等网络协议邻居关系时,通过 keychain 的方式进行认证,防止非法邻居仿冒,保证路由信息以及网络拓扑连接不被篡改。此外,对于 BGP 路由可能存在的劫持泄露问题,可通过 RPKI 可信源部署进行认证,防止将非法伪造或篡改的 BGP 路由,发布给 BGPPeer 邻居,造成合法路由流量被劫持。路径安全可使用基于 IPv6+体系的 SRv6 Policy 隧道技术,实现用户数据迁移的端到端路径可41、编程,根据用户业务需求灵活定义流量面向数据迁移的超算快线技术白皮书25传输路径。通过对 SRv6 配置安全域隔离,边界过滤实现防仿冒,Binding SID 实现网络信息防泄露。4.3.3 业务流量按需隔离业务流量按需隔离对于业务承载层,不同用户、不同类型的数据,包括气象预测、基因测序等科学计算数据、影视制作、自动驾驶路测等企业敏感数据都混跑在同一张物理网络上。为保证这些敏感数据之间的安全隔离,可通过网络切片物理隔离或者 VPN 逻辑隔离的技术实现。通过在业务承载层部署 FlexE 硬隔离网络以及小颗粒切片技术,提供业务级、租户级的网络切片能力,为不同用户的业务流量提供转发面的物理安全隔离;通42、过业务核心层合理规划 VPN ID 配置,需要互通的双方或者多方进入同一 VPN 实现路由控制面的隔离。当业务传输完成后,及时回收 VPN ID,分配给其他用户使用。4.3.4 好友关系维护好友关系维护业务核心层维护了各通信主体间的互信关系,类似于微信好友列表,只有双方通信用户通过线上或者线下的方式加为好友后,才可进行数据灵活传输。用户通过运营商提供的服务平台或者 API 接口,从好友列表中选择一个或者多个好友发起灵活组网连接。业务核心层通过寻址确定各通信双方终端位置,通过与接入终端与超级网关的交互,实现业务的秒级开通。当数据传输业务结束后,用户可删除好友关系;或者继续面向数据迁移的超算快线技43、术白皮书26维持好友关系,方便下一次继续发起数据迁移业务。4.4高带宽吞吐服务高带宽吞吐服务大模型训练算力需求高涨,科学、政务、金融、工业等行业算力需求增加4。大规模的数据迁移不断要求提高网络运力能力,解决当前数据流通困难问题。高带宽吞吐服务可有效缩短数据迁移所需要的总时间,为用户节约大量时间和资源,提供整体利用效率。高带宽吞吐服务技术主要包括传输层协议优化、广域 RDMA 技术以及负载均衡等技术。4.4.1 传输层协议优化传输层协议优化TCP协议作为一种传输层协议,其通过超时重传、拥塞控制、序列号等技术确保传输中数据的完整性和顺序性,保障网络传输的可靠性。由于TCP的吞吐性能与网络带宽、丢包44、率、网络时延密切相关,可以通过在服务器侧优化TCP协议来提高传输效率,例如采用合理算法调整TCP窗口大小,减少数据传输时延及重传次数,从而提升带宽利用率;优化网络拥塞控制算法,合理调控网络发送速率,预防网络拥塞,避免丢包等。UDP协议是无连接、不保证可靠性的传输层协议,不提供TCP的流控机制,传输数据速度更快,但无法保证数据传输的可靠性,会面临数据丢失的问题。对于UDP协议优化,可通过在服务器侧合理调整数据包大小,采用高效数据压缩和分块算法等,减少数据分片重组,面向数据迁移的超算快线技术白皮书27降低网络传输时延;通过合理设置带宽控制和流量限制来控制网络负载,避免网络拥塞导致的丢包。4.4.245、 广域广域 RDMA 技术技术为突破传统TCP/UDP在大带宽、高通量、时延敏感场景下的技术瓶颈,超算快线提供基于RDMA的广域无损网络解决方案。数据中心内部已广泛采用RDMA技术解决收发端服务器的瓶颈问题,通过网卡对存储的直接访问,降低对CPU的依赖和性能消耗,提升了服务器侧的高吞吐。在数据迁移,尤其是存算分离协同计算的场景,服务器侧仍需要部署RDMA,同时网关设备也依托RDMA实现NP/FPGA芯片对存储的直接访问,提升网络的传输带宽。网关设备和服务器之间部署PFC逐跳流量控制机制,并避免PFC死锁;部署ECN等相关技术,提供IP层端到端拥塞控制。通过缓存重传、拥塞提前降速/停止发送等机制46、,使广域网处于无损传输状态,不会陷入因丢包大量重传导致吞吐量增加,从而带来网络可用率急剧下降的恶性循环。4.4.3 负载均衡技术负载均衡技术海量数据传输场景下,不同业务对时延、抖动、丢包等质量要求存在较大差异,同时也呈现大小流两极分化的特点。超算快线的underlay承载层包括了有线、无线,IP、OTN、裸光纤等各类异构网络,超算快线结合业务流量识别技术,基于智能化流识别能力实现网络+通道/切片+QOS的层次化差异化选路调度,实现应用/流级别的智面向数据迁移的超算快线技术白皮书28能、高效数据传送。SRv6 技术通过源路由机制在 IPv6 报文中新增 SRH(SegmentRouting He47、ader)扩展头,该扩展头可通过 Segment List 信息来定义流量的转发路径。业务核心层实时采集底层网络的资源信息和流量状态,根据用户业务需求,对 Segment List 进行灵活编排,规划出最优的转发路径,并在路径部署时预留转发资源避免拥塞。对于传统通过流 Hash 负载分担方式造成的多条大象流分担到同一链路造成的拥塞丢包、吞吐效率低以及链路闲忙不均的问题,通过转发路径可编程技术在网络的源、宿节点间部署多条 SRv6ECMP/UCMP 传输路径,根据业务请求以及网络资源情况合理分配多条传输路径的流量分担比例,最大限度地利用网络资源,提升网络传输带宽。5超算超算快线快线业务模式业务模48、式借鉴电力系统“错峰用电”的双赢策略,超算快线业务鼓励用户在网络闲时进行海量数据传送,实现网络削峰填谷,开源节流,提升网络整体资源利用率。针对不同用户的不同需求,超算快线提供多种业务模式:(1)任务式业务模式任务式业务模式面向随用随连任务式需求的算力资源需求者。该业务模式的主要特点在于:用户对业务传输需求非长期连续;面向数据迁移的超算快线技术白皮书29 支持随建随拆,用户可实时或预约夜间闲时业务传输,1G-100G带宽随用随连,业务结束,随即拆除连接;支持多量纲灵活计费,按连接次数、带宽、时长、流量、距离等使用量计费。(2)弹性业务模式弹性业务模式面向有基础带宽及弹性业务需求的算力资源需求者。49、该业务模式的主要特点在于:用户对业务传输需求定向、长期、连续;提供100M基础带宽定向算力中心连接,为用户提供连续的业务传输;同时为用户提供实时/预约夜间闲时1G-100G带宽提速调整,业务结束,恢复至100M基础带宽常连接;支持按需收费,用户支付基础专线租用费,并按需灵活收取提速带宽费用,对于有长期定向算力中心连接需求的用户来说性价比高。(3)固定带宽业务模式固定带宽业务模式面向超算中心、智算中心以及新型数据中心等算力资源提供方。该业务模式的主要特点在于:算力中心需要长期维持大带宽的网络传输能力,为算力用户提供服务,因此接入段固定维持10G-100G的大带宽;根据业务需求与各算力用户之间打通50、连接,对接入段资源进行编排调度,当所剩资源无法满足新的业务需求时,拒绝申请请求或者通知算力用户降级;计费方式采用包月或包年固定带宽计费,并可依据应用规模进面向数据迁移的超算快线技术白皮书30行带宽扩容。6超算快线典型应用场景超算快线典型应用场景超算快线业务本质是基于任务式的随接随用弹性大带宽连接服务,既适用于科研机构、高校、行业用户等客户群的海量数据入算力中心的传输,也可用于算力站点之间的高速互联,也可用于其他临时性、周期性的数据传输。典型业务场景举例如下:6.1 东数西存东数西存东数西存作为东数西算重要组成部分,是将东部的数据按照不同的等级存储于西部的数据中心。统计数据分析显示,在社会运行所51、产生的数据中,冷、温、热数据的占比分别为 80%、15%、5%。海量的冷、温数据需要通过运营商网络实现“东数西存”。采用超算快线任务式业务模式,用户可在夜间闲时按需申请大带宽传输备份数据/云灾备数据,实现可靠的冗余离站存储,在有效控制运营风险的同时降低存储及传输成本。6.2 算力互联算力互联我国算力基础设施分散,算力资源利用率不均衡,“东数西算”工程统筹建设全国一体化算力网络,跨区域算力调度不断增长,海量数据跨地域搬移成为常态。湖南省工信厅计划将省内的算力基础设施互联,通过算力调度平台向社会公众提供算力服务,有效提升湖南省算力效能;北京、昆山、面向数据迁移的超算快线技术白皮书31无锡等超算中心52、的计算任务溢出,可充分利用西部的能源、气候以及环境等优势,通过成都、太原以及青海等地方的超算中心承接计算任务。当前算力中心之间数据迁移主要依靠教育网、科技网以及政府外网等实现数据迁移,但其带宽小、覆盖范围不足、连接不灵活的问题导致数据传输效率低。通过超算快线可实现算力中心之间高速安全互联,如图 5 所示,通过多站点对作业的协同计算,提高计算效率以及各算力中心的资源利用率。图 5 算力互联应用场景6.3 科学计算科学计算科研机构、企事业单位、高校等群体在科学计算方面的需求越来越旺盛,科学计算产生的数据量快速增长,特别是在天文、气象等领域存在巨大的计算资源缺口,亟需社会上的算力资源补充。以 FAS53、T天文数据计算为例,FAST 每年约 200 多个观测项目,单项目产生观测数据量 TBPB 量级,年产数据约 15PB。中科院高能物理研究所预计至 2027 年用于计算的数据量达到 600PB 级别。面向数据迁移的超算快线技术白皮书32利用超算中心/智算中心算力资源进行科学计算同样涉及海量数据传输,中科院高能所和成都超算中心“超算快线”业务的开通,充分证明了“超算快线”在科学计算领域应用的便捷性和高效性。6.4 影视制作影视制作影视综艺节目的拍摄素材需要经后期制作公司剪辑、渲染,由于拍摄地不固定,需要根据拍摄和制作周期将拍摄素材批量传输至后期制作公司所在地。一部大型综艺或影视节目的原始素材数据54、量可达PB 级别,目前主要采用人工硬盘快递方式,时效性差、效率低、传输成本高。影视节目平均每天拍摄的原始素材量约为 2TB,如图 6 所示,使用 10GE 带宽的超算快线,每天仅需 1 小时即可将当天数据传输至后期制作公司所在地。除了影视行业外,基因行业样本数据传送到算力中心进行基因分析、人工智能行业训练数据上传、训练模型下推、日志定期业务数据异地备份均可使用超算快线服务。图 6 影视制作应用场景面向数据迁移的超算快线技术白皮书337现网实践现网实践7.1 业务需求背景业务需求背景中国科学院高能物理研究所北京站点汇聚了正负电子对撞机、高海拔宇宙线观测站等众多国家大科学装置数据,每年产生 10055、PB 数据,且预计至 2027 数据将会增加到 900PB,仅靠自身算力无法满足计算处理需求。为解决算力资源不足的难题,高能所努力探索利用山东大学、超算中心等第三方算力资源作为补充。“LHAASO”位于四川稻城,是世界上海拔最高、规模最大、灵敏度最高的宇宙射线观测装置,自建成以来,已经有多项重大科学成果,更是入选了 2023 年度的中国科学十大进展。其每年产生约 11PB 数据,并且数据量在不断增长。高能所算力调度平台根据“拉索”作业需求以及各站点的算力资源情况,将数据调度到合适的算力节点进行处理。但当前网络专线成本高、获取周期长、灵活弹性组网能力不足,无法根据作业需求灵活提供网络服务,大规模56、数据传输成为使用算力资源的瓶颈。面向数据迁移的超算快线技术白皮书347.2 网络建设方案网络建设方案图 7 高能所到成都超算中心总体实现方案图 7 为高能所到成都超算中心数据迁移的总体技术方案。基于超算快线的随建随拆、安全可信、差异化保障的网络新能力特性,用户根据自身需求定制参数,选择夜间定时加速或即刻发起业务,实现灵活、高效的端到端数据低成本传送。物理组网方面,成都至北京的骨干网为中国电信大科学装置骨干网,成都超算中心 PON 专线通过成都城域网接入当地 SGW,北京高能所 OTN 专线通过 OTN 网络接入当地 SGW。两地 SGW 均与大科学装置骨干网的本地节点对接,从而建立了北京高能所57、至成都超算中心的跨域入算专线组网。业务组网方面,高能所以及成都超算中心用户通过在端侧新增的CPE 以 PPPoEoIPv6 拨号的 overlay 方式接入骨干网 SGW,骨干网SGW 间通过 SRv6 EVPN 提供安全可靠业务传输。面向数据迁移的超算快线技术白皮书35业务实现方面,高能所算力调度平台通过内嵌调用 IP 业务核心网开放的 API 接口,根据业务需求自主定义网络传输参数,包括组网需求、网络带宽以及服务等级。IP 业务核心网提供业务连接寻址以及资源按需匹配,通过对业务的 session 级管理实现业务的秒级开通、变更以及弹性敏捷服务。7.3 业务效果业务效果2024 年 3 月 58、6 日,完成跨域 10G 超算快线服务建设及测试,实现了业界首个跨2000公里把1.6TB数据在40分钟内数据传送的验证,提升了 LHASSO 利用超级计算机探索宇宙线起源的能力,最大程度地利用算力中心的算力资源,为“东数西算”大数据跨域自调度提供了创新的解决方案。如图 8 所示,在试验中,算力调度平台通过 API接口调用实现作业任务发送,网络带宽从 30Mbps 秒级提升到 10Gbps,时延缩短 55%,服务类型从尽力而为切换到低时延保障。数据传送完,恢复原有 30M 带宽,实现任务式服务。如图 9 所示,试验完成后,成果获得了多个单位的认可56。目前中国电信已在 10 余省市开展应用验证59、,涵盖用户入算、算间互联以及算网协同的各个应用场景,包括短距、中距、长距多种传输链路,为构建全国一体化算力网贡献中国电信力量。面向数据迁移的超算快线技术白皮书36图 8 测试结果图图 9 超算快线获得多单位认可8产业倡议产业倡议超算快线是中国电信积极响应“超算互联网”、“加快构建全国算力一体化算力网”等国家战略,为用户提供数据灵活、跨域、普惠、高效的入算解决方案。超算快线可完美解决用户入算难题,支持任务式服务、弹性带宽以及按使用量灵活计费能力,降低入算成本,同时提升算力中心利用率。后续将以多模态智联计算网络技术研究与验证国家项目为载体进一步开展关键核心技术的验证和现网实践,赋能国家新型网络基础60、设施建设,助力国家“东数西算”工程。面向数据迁移的超算快线是 IP 业务网系列创新业务之一,目前尚处于业务推广阶段。在此,中国电信倡议全国各超算中心/智算中面向数据迁移的超算快线技术白皮书37心、大型数据中心、各科研机构、高等院校、企事业单位,共同推进超算快线在数据迁移中的商业应用。同时希望进一步加强与各超算中心、智算中心的技术合作,实现 IP 业务核心网与算力调度平台协同,进行算网协同一体化调度、弹性大带宽连接以及安全可信接入等核心技术攻关创新,推进全国一体化算力网建设。面向数据迁移的超算快线技术白皮书38附录附录 A:术语与缩略语:术语与缩略语英文缩写英文缩写英文全拼英文全拼中文名称中文名61、称ACLAccess Control Lists访问控制列表AIArtificial Intelligence人工智能APIApplication Programming Interface应用程序编程接口DOHDestination Options Header目的选项头ECMPEqual-cost multi-path routing等价多路径路由ECNExplicit Congestion Notification显式拥塞通知算法FlexEFlexible Ethernet灵活以太网FPGAField Programmable Gate Array现场可编程逻辑门阵列IOAMIn-sit62、u Operations Administration andMaintenance随流检测IPSecInternet Protocol Security互联网安全协议NPNetwork Processor网络处理器OTNoptical transport network光传送网PFCPriority Flow Control基于优先级的流量控制PONPassive Optical Network无源光纤网络PPPoEPoint-to-Point Protocol Over Ethernet以太网上的点对点协议QoSQuality of Service服务质量QUICQuick UDP Int63、ernet Connections快速 UDP 网络连接RDMARemote Direct Memory Access远程直接数据存取SAService-Aware业务感知SDKSoftware Development Kit软件开发工具包SDNSoftware Defined Network软件定义网络SLAService Level Agreements服务等级协议SRv6Segment Routing IPv6基于 IPv6 转发平面的段路由STNSmart Transport Network智能传送网TCPTransmission Control Protocol传输控制协议UCMPUnequal Cost Multiple Path非等值负载分担UDPUser Datagram Protocol用户数据报协议面向数据迁移的超算快线技术白皮书39参考文献参考文献1超算互联网白皮书。2云网一体信息基础设施IP 网络 3.0(IP 业务网)体系架构白皮书。3 云网一体信息基础设施IP 网络 3.0(IP 业务网)体系架构白皮书(中国电信 IP 确定性切片技术子册)。4 全国数据资源调查报告(2023 年)。5 https:/ https:/www.nscc-。面向数据迁移的超算快线技术白皮书1

    下载