定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《2023算力芯片应用场景、市场空间及国产厂商发展机遇分析报告(37页).pdf》由会员分享,可在线阅读,更多相关《2023算力芯片应用场景、市场空间及国产厂商发展机遇分析报告(37页).pdf(37页珍藏版)》请在本站上搜索。 1、2023 年深度行业分析研究报告 目 录 1 算力芯片壁垒高、发展必要性强.5 1.1 不同算力芯片的特点与区别.5 1.2 CPU 广泛应用于服务器、工作站、个人计算机等.7 1.3 GPU 等 AI 芯片广泛应用于高性能运算、深度学习等场景.9 2 份额提升空间大,性能有待突破.9 2.1 国内厂商份额极低,具备广阔拓展空间.9 2.2 多数参数我国 CPU 具备比肩能力.11 2.3 国内厂商提升 CPU 性能的几大壁垒.12 2.3.1 指令级架构与生态绑定多年,创新面临知识产权等多重壁垒 12 2.3.2 EDA 工具软件基本被垄断,软件工具集群被卡脖子 14 2.3.3 材料、设备2、、晶圆厂国产化率低,在诸多限制下提升困难 14 2.4 AI 芯片的关键性能差异.15 2.4.1 AI 芯片的关键特征包含数据特点、计算范式、精度、重构能力等 15 2.4.2 AI 芯片设计趋势 15 3 国产厂商的机遇:数据中心、国产化和先进封装.16 3.1 数据中心快速发展带来行业新机遇.16 3.2 在国产化浪潮中不断突破不同市场.16 3.3 先进封装助力国产 CPU 企业弯道超车.18 4 投资建议.18 4.1 海光信息:国产服务器算力芯片龙头.18 4.2 寒武纪:领跑中国 AI 芯片市场.20 4.3 龙芯中科:从指令集到架构全自主的 CPU.22 5 风险提示.25 63、 附录 非上市算力芯片公司.25 6.1 华为:布局五大系列芯片,鲲鹏、昇腾满足服务器和 AI 需求.25 6.2 飞腾:从 CPU 研发到全栈式方案.28 6.3 兆芯:行业拓展成果显著.31 6.4 申威:以自研指令集保障关键领域.34 5V9YqUoWxUnXjWsOqN8OdN8OsQqQsQsRiNnNoQjMnPqP8OrRvMvPsRnQwMtRpQ 图表目录 图 1:Intel i7 6700K SOC 结构示意图.6 图 2:CPU 与 GPU 内部构造对比.6 图 3:FPGA 并行运算相对 CPU 可提升视觉算法计算效率.7 图 4:IBM 的 TrueNorth 芯片结4、构、功能、物理形态图.9 图 5:2021 年全球数据中心 CPU 市场份额.10 图 6:2021-2022 年全球数据中心 CPU 市场份额.10 图 7:4Q22 全球 GPU 市场占有率.11 图 8:4Q22 全球独立 GPU 市场占有率.11 图 9:我国数据中心机架规模.16 图 10:CPU 三类市场划分及特点.17 图 11:龙芯中科 3D5000 芯片.18 图 12:3D5000 芯片由 2 颗 3C5000 芯片封装而成.18 图 13:海光信息公司及产品发展沿革.19 图 14:全算力的产品布局.21 图 15:车云协同助力数据闭环与 AI 调优.21 图 16:云边5、端车协同.21 图 17:训练软件平台.22 图 18:推理加速引擎 MagicMind.22 图 19:龙芯中科股权结构(截至 2023.4.28).23 图 20:公司龙芯自主指令系统.24 图 21:龙架构及其特性.24 图 22:龙芯 3D5000 规格参数.24 图 23:龙芯 CPU 系列及其应用.25 图 24:华为五大系列芯片全景图.26 图 25:IDC 预测 2023 年全球计算产业投资额.27 图 26:华为鲲鹏计算产业定位与展望.27 图 27:华为 5 大关键芯片演进策略.27 图 28:基于飞腾平台的终端全栈架构.30 图 29:兆芯芯片产品应用图谱.33 图 306、:申威 26010.35 图 31:申威 CPU 基本特征.35 图 32:“神威 太湖之光”外观.36 表 1:CPU,GPU,FPG 与 ASIC 的特性与功能.5 表 2:独立 GPU 与集成 GPU 比较.6 表 3:CPU 的下游应用分类.7 表 4:国内外主流厂商服务器 CPU 性能对比.12 表 5:不同指令集架构对比分析.12 表 6:PC 芯片市场规模测算.17 表 7:2022 年中国服务器芯片市场规模.17 表 8:海光系列 CPU 特性及应用.19 表 9:海光 DPU 规格特点.20 表 10:寒武纪产品行业解决方案示例.22 表 11:鲲鹏 920 处理器产品特性.7、26 表 12:各行业数字化转型需求.28 表 13:飞腾公司发展沿革.28 表 14:飞腾 CPU 产品分类及定位.29 表 15:飞腾三大产品系列发展路线及应用.30 表 16:兆芯公司发展沿革.31 表 17:兆芯处理器芯片家族.32 表 18:兆芯行业拓展成果.34 表 19:申威产品特性及应用.35 1 算力芯片算力芯片壁垒高、发展必要性强壁垒高、发展必要性强 英伟达宣布生成式英伟达宣布生成式 AI 引擎引擎 NVIDIA DGX GH200 现已投入量产。现已投入量产。2023 年 5 月 28 日,英伟达创始人兼 CEO 黄仁勋在 NVIDIA Computex 2023 演讲中8、宣布,生成式 AI 引擎 NVIDIA DGX GH200 现已投入量产。GH200 使用 Nvidia 的 NVLink-C2C 互连技术,将 Nvidia 基于 ARM 的 Grace CPU和 Hopper GPU 架构融合到一个芯片中。NVIDIA DGX GH200 将 256 个 NVIDIA Grace Hopper超级芯片完全连接到单个 GPU 中,支持万亿参数 AI 大模型训练,能够处理大规模推荐系统、生成式人工智能和图形分析,并为巨型人工智能模型提供线性可扩展性。Nvidia 的服务器合作伙伴正计划基于新的 GH200 Superchip 打造他们自己的系统,首批产品将于今9、年晚些时候上市。GH200 速度和功耗指标都有显著提升。速度和功耗指标都有显著提升。这款新的芯片总带宽达每秒 900GB,比当今最先进的加速计算系统中采用的标准 PCIe Gen5 通道高出 7 倍。Nvidia 表示,Superchip 的功耗也降低了 5倍,使其能够更有效地处理那些要求苛刻的 AI 和高性能计算应用。AMD 推出数据推出数据中心中心 APU Instinct MI300。北京时间 2023 年 6 月 14 日凌晨,AMD 推出数据中心APU(加速处理器)Instinct MI300,其旨在帮助数据中心处理人工智能相关数据流量,并在这一快速增长的市场上挑战英伟达的垄断地位。10、Instinct MI300 系列将包括一个 GPU(图形处理器)MI300X,可以加速 ChatGPT 等聊天机器人所使用的生成式 AI 技术的处理。先进算力国产替代先进算力国产替代在行业变革中有望迎来机遇在行业变革中有望迎来机遇。半导体国产化势在必行,而算力芯片又是重中之重。AI 算力、低功耗等对服务器算力芯片提出新的要求,市场格局近几个季度变化较多,英伟达GH200 有望加速全球 AI 服务器算力芯片市场变革,中国芯片企业在面临挑战的同时,也有望迎来发展机遇。1.1 不同算力芯片的特点与区别 计算芯片包括 CPU、GPU、FPGA、ASIC 等,都用作计算分析。其中,CPU 是性能最综合11、的计算芯片,AI 算法的执行也运用 GPU、FPGA、ASIC 等芯片。表 1:CPU,GPU,FPG 与 ASIC 的特性与功能 指标指标 CPU GPU FPGA ASIC 架构区别 70%晶体管用来构建 Cache,还有一部分控制单元,计算单元少,适用于运算复杂,逻辑复杂的计算。晶体管大部分构建计算单元,运算复杂度低,适合大规模并行计算。可编程逻辑,不通过指令集,计算效率高,更接近底层IO,通过几余晶体管和连线实现逻辑可编程。晶体管根据算法定制,不会有冗余,功耗低、计算性能高、计算效率高。定制开发成本高,时间周期长。峰值算力 一般 较高 较高 最高 功耗 高 高 较低 最低 能耗比 最低12、 较低 较高 最高 通用性 最高 较高 一般 最低 时延 微秒级别 1 毫秒 1 微秒 1 微秒 数据来源:中国信通院,凡亿教育,AI 电堂,东方证券研究所 CPU 是综合计算芯片,擅长逻辑控制和串行运算。是综合计算芯片,擅长逻辑控制和串行运算。计算机的运算器和控制器一起组成了 CPU,CPU 是整台计算机的大脑,也是一个有多种功能的优秀领导者。它的优点在于调度、管理、协调 能力强,计算能力则位于其次。CPU 有大量的缓存和复杂的逻辑控制单元,非常擅长逻辑控制、串行的运算,但因计算单元占 30%左右,不擅长复杂算法运算和处理并行重复的操作。GPU 相比相比 CPU计算单元大大增加,擅长大量并行13、计算。计算单元大大增加,擅长大量并行计算。而作为通用芯片的 GPU相当于一个接受CPU 调度的“拥有大量计算能力”的员工,计算单元相比 CPU 大大增加。GPU 最初承担图像计算任务,能够进行并行计算,因此 GPU 架构本身比较适合深度学习算法,通过对 GPU 的优化,进一步满足深度学习大量计算需求。其主要缺点在于功耗较高。图 1:Intel i7 6700K SOC 结构示意图 图 2:CPU 与 GPU 内部构造对比 数据来源:Intel,东方证券研究所 数据来源:芯智讯,东方证券研究所 GPU 按照接入类型可以分为独立按照接入类型可以分为独立 GPU 和集成和集成 GPU。独立 GPU 14、即独立显卡,需要插在主板的相应接口上,具备单独的显存,不占用系统内存,能够提供更好的显示效果和运行性能。全球知名供应商主要包括 AMD 和 NVIDIA 两家。集成 GPU 即集成显卡,是将图形核心以单独芯片的方式集成在主板上,并且动态共享部分系统内存作为显存使用,能够提供简单的图形处理能力,以及较为流畅的编码应用。全球知名供应商主要包括英特尔和 AMD 两家。表 2:独立 GPU 与集成 GPU 比较 独立 GPU 集成 GPU 主要区别 CPU 占用 自带 GPU 占用部分 CPU 内存 内存占用 自带显存 需要一部分内存作为显存 图形计算能力 较强 较弱 功耗 较高 较低 优势 自带显存15、、不占用内存、拥有强大的图像处理能力 价格低、兼容性好、升级成本低 劣势 价格偏高、升级成本高 无独立显存、占用内存、影响电脑性能 图片示例 数据来源:英特尔官网,东方证券研究所 GPU 按照应用场景不同可分为按照应用场景不同可分为 PC GPU、服务器、服务器 GPU 和移动和移动 GPU。1)集成 GPU 一般运用于PC 以轻办公、文字编纂为主;独立 GPU 则一般运用于 PC 以制作高清图片、编辑视频、渲染游戏等。2)服务器 GPU 主要以独立 GPU 为主。服务器 GPU 主要应用于服务器,可做专业可视化、计算加速、深度学习等应用。3)移动 GPU 以集成 GPU 为主。随着移动端向着16、轻薄化不断 发展,终端内部净空间随着多种功能模组的增加呈快速下降趋势。此外,就目前的移动端视频和图片的处理要求而言,集成 GPU 的性能尚可满足移动端的需要。FPGA 又称半定制化芯片,具有足够的计算能力、较低的试错成本和足够的灵活性。又称半定制化芯片,具有足够的计算能力、较低的试错成本和足够的灵活性。FPGA 的计算速度快是源于它本质上是无指令、无需共享内存的体系结构,“无指令”即使用硬件描述语言编程,直接编译为晶体管电路的组合,所以 FPGA 实际上直接用晶体管电路实现用户的算法,没有通过指令系统的翻译;“无需共享内存”是指对于保存状态的需求,FPGA 中的寄存器和片上内存(BRAM)是属17、于各自的控制逻辑的,无需不必要的仲裁和缓存。因此 FPGA 运算速度足够快,优于 GPU。同时,相比量产成本高昂的 ASIC 芯片,因为 FPGA 是一种半定制的硬件,通过编程可定义其中的单元配置和链接架构进行计算,因此在灵活性上优于ASIC,具备较低试错成本。图 3:FPGA 并行运算相对 CPU 可提升视觉算法计算效率 数据来源:AI 电堂,东方证券研究所 ASIC 是全定制芯片,性能强但是前期开发是全定制芯片,性能强但是前期开发久、久、成本高。成本高。是根据产品的需求进行特定设计和制造的集成电路,能够在特定功能上进行强化,具有更高的处理速度和更低的能耗。缺点是成本高,且由于定制化,可复制18、性一般,因此只有用量足够大时才能够分摊前期投入,降低成本。1.2 CPU 广泛应用于服务器、工作站、个人计算机等 CPU 可以应用在服务器、工作站、个人计算机(台式机、笔记本电脑)、移动终端和嵌入式设备等不同设备上,根据应用领域的不同,其架构、功能、性能、可靠性、能效比等技术指标也存在一定差异。表 3:CPU 的下游应用分类 类型类型 主要性能指标主要性能指标 典型应用场景典型应用场景 技术特点技术特点 服务器 1、单颗处理器核心数一般在8核64核,20核以上居多 2、支持多路互连,两路、四路、八路等 3、可靠性、稳定性要求高,常年无故障运行 4、高端内存,支持 ECC 等可靠性要求 5、功耗19、比较高,一般 100W 以上 1、行业关键应用(电信、金融、教育、互联网)2、政府国计民生关键应用(税务、电力公安、社保等)1、微结构复杂、先进,制造工艺先进,核心数多,单核及多核性能皆优异 2、指令集功能齐全 3、片上集成缓存容量大 4、内存通道数多 5、I/O 带宽高 6、支持多处理器一致性互连 7、可靠性高,RAS 功能丰富 8、TDP 功耗较高 工作站 1、单颗处理器核心数一般在 10 核以下,4核、8 核居多 2、单路或双路形式 3、可靠性、稳定性要求较高 4、内存容量要求较高 5、一般配有独立显卡 6、功耗一般在 100W 以下 1、图形工作站 2、计算工作站 1、微结构复杂、先进20、,制造工艺先进,单核及多核性能优异 2、指令集功能齐全 3、片上集成缓存容量大 4、I/O 能力要求较强 5、可靠性较高 PC 1、单颗处理器核心数一般在 10 核以下,4核、8 核居多 2、主要是单路形式 3、可靠性、稳定性要求低 4、低成本内存,可靠性要求相对较低,内存容量要求低 5、功耗一般在 100W 以下 1、台式机 2、笔记本电脑 1、微结构复杂、先进,制造工艺先进 2、性能与功耗较平衡 3、指令集功能较齐全 4、I/O 接口功能齐全 5、内存通道数为 12 个 移动终端 1、单颗处理器核心数一般在 10 核以下,4核、8 核居多 2、主要是单路形式 3、可靠性、稳定性要求相对较低21、 4、内存成本低,可靠性要求低,内存容量要求低 5、功耗要求严格,关注低功耗设计 1、手机 2、平板电脑 3、智能电视 4、POS 机 1、微结构较复杂,制造工艺先进 2、性能功耗比优异 3、指令功能较齐全 嵌入式设备 1、处理器一般采用 SoC 方案,CPU 内部集成丰富的外围设备 2、功耗要求苛刻,功耗一般很低 1、智能汽车 2、网络设备 3、物联网设备 4、工业控制系统 应用领域非常广泛,针对不同应用领域有不同规格 数据来源:海光信息招股书,东方证券研究所 服务器处理器服务器处理器需长时间运行,需长时间运行,数据处理能力最强、设计工艺最复杂、可靠性最高。数据处理能力最强、设计工艺最复杂、22、可靠性最高。服务器具有高速的数据处理能力、强大的 I/O 数据吞吐能力、良好的可扩展性,并需要长时间可靠运行,其CPU 芯片在性能、可靠性、可扩展性和可维护性等方面要求较为苛刻。因此,服务器处理器是数据处理能力最强、设计工艺最复杂、可靠性最高的处理器。服务器的应用领域包括实时分析、5G应用、人工智能、机器学习、金融、大数据和云计算等领域。工作站主要为单用户提供比个人计算机更强大的性能。工作站主要为单用户提供比个人计算机更强大的性能。工作站是一种高端微型计算机,主要为单用户提供比个人计算机更强大的性能,尤其是在数据并行处理能力和图形处理能力等方面。工作站的典型应用领域包括科学和工程计算、软件开发23、、计算机辅助设计等。个人计算机主要满足个人需求,核心数量较少。个人计算机主要满足个人需求,核心数量较少。个人计算机包括台式机和笔记本电脑两大类,主要用于满足个人的工作、学习、娱乐需求,以及企业员工的办公需求。个人计算机处理器核心数量较少,具有较少 I/O。移动终端具有低功耗、轻量化等特点,关注对多媒体功能的增强。移动终端具有低功耗、轻量化等特点,关注对多媒体功能的增强。移动终端包括手机、笔记本、平板电脑、POS 机等。随着集成电路技术的进步和移动网络向宽带化发展,移动终端正从简单通话工具逐步转变为综合信息处理平台。移动终端处理器具有低功耗、轻量化等特点,关注对多媒体功能的增强,具有较少 I/O24、。嵌入式设备对功耗、稳定性、可扩展能力要求高。嵌入式设备对功耗、稳定性、可扩展能力要求高。嵌入式设备需要具有高稳定性和低功耗,其处理器对环境(如温度、湿度、电磁场、振动等)的适应能力强,体积小,且集成度高,适用于工业控制、移动便携设备、物联网终端等场合。其中,大多数物联网设备需要额外的 CPU处理能力来支持可升级的额外功能。因此,针对特定的物联网应用程序的 CPU不仅必须支持安全特性,而 且必须同时具有可扩展的性能,实现更高的时钟频率。物联网应用处理器芯片具有面向高集成度、高抗干扰能力和低功耗的发展趋势。1.3 GPU 等 AI 芯片广泛应用于高性能运算、深度学习等场景 AI 芯片主要指面向人25、工智能应用的芯片。芯片主要指面向人工智能应用的芯片。大致包含三类:1)通用、半定制化芯片:经过软硬件优化可以高效支持 AI 应用的通用芯片,如 GPU,FPGA;2)专门为特定的 AI 产品或者服务而设计的芯片:侧重加速机器学习(尤其是神经网络、深度学习),如 ASIC;3)神经形态计算芯片:不采用经典的冯诺依曼架构,而是基于神经形态架构设计,类似人脑,具备较高的集成度和能效比,以 IBM Truenorth 为代表。图 4:IBM 的 TrueNorth 芯片结构、功能、物理形态图 数据来源:Science,东方证券研究所 2 份额提升空间大,性能有待突破份额提升空间大,性能有待突破 2.126、 国内厂商份额极低,具备广阔拓展空间 全球全球 CPU 商用市场基本被商用市场基本被 Intel、AMD 两家两家垄断,垄断,国产国产 CPU 具备广阔拓展空间。具备广阔拓展空间。CPU 目前从市场占有率来说,Intel 依靠其强大的 X86 生态体系和领先的制造能力,在通用 CPU 市场占据领先地位。2021 年,Intel 市场份额不低于 80%,AMD 近期追赶势头明显,其他厂商整体市场份额不超过 7%。图 5:2021 年全球数据中心 CPU 市场份额 数据来源:Counterpoint Analysis,东方证券研究所 英特尔优势降低,英特尔优势降低,数据中心领域集中度有所降低。数据27、中心领域集中度有所降低。2022 年,数据中心领域 Intel 市场占有率为71%,较 21 年下降 10pcts,AMD 22 年市占率快速提升 8pcts 至 20%,亚马逊、Ampere 等新兴玩家份额快速提升,给总计份额不足 5%的国产厂商发展带来了借鉴意义。图 6:2021-2022 年全球数据中心 CPU 市场份额 数据来源:Counterpoint,东方证券研究所 全球全球 GPU 市场市场为为三足鼎立的寡头竞争格局三足鼎立的寡头竞争格局,英伟达在独显领域一家独大,英伟达在独显领域一家独大。在独立显卡市场上,长期以来都是 AMD及 NVIDIA 两家的二人转,2022年 Inte28、l正式杀入了显卡市场,目前独立 GPU市场则主要由 NVIDIA、AMD 和英特尔三家公司占据,2022 年 Q4 全球独立 GPU 市场占有率分别为 85%、9%和 6%,其中,NVIDIA 在 PC 端独立 GPU 领域市场占有率优势明显。英特尔80.71%AMD11.74%其他厂商4.62%aws1.82%userid:93117,docid:130737,date:2023-12-26, 图 7:4Q22 全球 GPU 市场占有率 图 8:4Q22 全球独立 GPU 市场占有率 数据来源:JPR,东方证券研究所 数据来源:JPR,东方证券研究所 2.2 多数参数我国 CPU 具备比肩能29、力 影响国内影响国内CPU市占率的主要是技术差异,即产品性能。市占率的主要是技术差异,即产品性能。CPU性能的主要影响因素为频率和IPC,其他影响 CPU 性能的因素还有总线宽度、制程、存储、内核数、封装技术等。(1)主频,外频和倍频和)主频,外频和倍频和 IPC。主频是 CPU的时钟频率,即 CPU的工作频率,一般来说,一个时钟周期完成的指令数是固定的,所以主频越高,CPU单位时间运行的指令数越多。外频即CPU和周边传输数据的频率,具体是指 CPU 到芯片组之间的总线速度,CPU 的外频决定着整块主板的运行速度。产生的输出信号频率是输入信号频率的整数倍称为倍频,倍频和外频相乘就是主频,当外频30、不变时,提高倍频,CPU主频也就越高。IPC指CPU每一个频率周期里处理的指令数量。(2)地址总线宽度。)地址总线宽度。地址总线是专门用来传送地址的,CPU 通过地址总线来选用外部存储器的存储地址,总线宽度决定了 CPU 可以访问的物理地址空间(寻址能力),简单地说就是 CPU 到底能够使用多大容量的内存。例如 32 位的地址总线,最多可以直接访问 4GB 的物理空间。8 位微机的地址总线为 16 位,则其最大可寻址空间为 216=64KB。(3)数据总线宽度。)数据总线宽度。数据总线宽度决定了 CPU 与内存以及输入、输出设备之间一次数据传输的信息量。(4)制程和封装。)制程和封装。CPU 31、的生产需要经过硅提纯、切割晶圆、影印、蚀刻、分层、封装、测试 7个工序,制程工艺的提升或更小的制程对于 CPU 性能的提升影响明显,主要表现为 CPU 频率提升以及架构优化两个方面。一方面,工艺的提升与频率紧密相连,使得芯片主频得以提升;另一方面工艺提升带来晶体管规模的提升,从而支持更加复杂的微架构或核心,带来架构的提升。(5)工作电压。)工作电压。指的是 CPU 正常工作所需的电压。低电压能够解决耗电多和发热过高的问题,使 CPU 工作时的温度降低,工作状态稳定。(6)高速缓冲存储器。)高速缓冲存储器。它是一种速度比内存更快的存储设备,用于缓解 CPU 和主存储器之间速度不匹配的矛盾,进而改32、善整个计算机系统的性能。很多大型、中型、小型以及微型计算机中都采用高速缓存。(7)除上述性能指标外,CPU 还有其他如接口类型、多媒体指令集、装封形式、整数单元和浮点单元强弱等性能影响指标。英特尔71%AMD12%英伟达17%英伟达85%AMD9%英特尔6%多数参数我国多数参数我国 CPU具备比肩能力,具备比肩能力,IPC 性能是最主要差距。性能是最主要差距。目前通过公开信息可以看出,主频、核心数、内存类型等指标我国 CPU厂商差异不大,具备一定的比肩能力,但落实到具体性能决定指标 IPC,仅 Intel 和 AMD 会公布 IPC“相比上一代提升了多少”,其他国产 CPU 从 IPC 性能来33、看大致落后于 Intel、AMD 几年水平。表 4:国内外主流厂商服务器 CPU 性能对比 品牌品牌 Intel AMD 海光海光 兆芯兆芯 海思海思 飞腾飞腾 龙芯龙芯 申威申威 型号 Xeon Gold 6330N EPYC 7542 海光 7285 开胜 KH-30000 鲲鹏 920-7260 S2500 3D5000 申威 1621 指令集 x86 x86 x86 x86 ARM ARM LoongArch SW_64 核心数 28 32 32 8 64 64 32 16 超线程 56 64 64 不支持 不支持 不支持 不支持 不支持 主频 2.2GHz 2.9GHz 2.0GHz34、 3.0GHz 2.6GHz 2.2GHz 2.0GHz 2.0GHz 内存类型 DDR4 DDR4 DDR4 DDR4 DDR4 DDR4 DDR4 DDR3 内存通道数 8 8 8 2 8 8 8 8 最高内存频率 3400MHz 3200MHz 2666MHz 2666MHz 2933MHz 3200MHz 3200MHz 2133MHz PCIe 通道数 64 128 128 16 40 17 32 16 数据来源:Intel 官网,龙芯中科官网,海光信息招股书,东方证券研究所 2.3 国内厂商提升 CPU 性能的几大壁垒 2.3.1 指令级架构与生态绑定多年,创新面临知识产权等多重壁35、垒 指令集是 CPU所执行的指令的二进制编码方法,是软件和硬件的接口规范。日常交流中有时也把指令集称为架构。CPU按照指令集可分为 CISC(复杂指令集)和 RISC(精简指令集)两大类,CISC 型 CPU目前主要是 x86 架构,RISC型 CPU主要包括 ARM、RISC-V、MIPS、POWER架构等。指令指令集集架构与生态绑定多年,创新面临知识产权、时间等多重壁垒。架构与生态绑定多年,创新面临知识产权、时间等多重壁垒。历经几十年的发展,全球形成了 Wintel(Windows+Intel)和 AA(Android+ARM)两大信息化生态体系,并且都由美国主导,在生态和知识产权上都形成36、了自己的“领地”。中国之前没有指令集,重新搭建或者在现有的开源指令集基础上修改,会面临知识产权问题以及前期需要大量的试错优化过程。且新的指令集需要新的生态来适配,所需要的操作系统、基础软件和各种应用软件都需要重新适配,这也是目前新指令集发展的一个难点。表 5:不同指令集架构对比分析 指令集架构指令集架构 自主指令自主指令 ARM X86 MIPS POWER RISC-V 来源 公司自研 ARM 公司 Intel/AMD/台湾威盛 MIPS 公司 IBM 加州大学伯克利分校 分类 精简指令集(RISC)复杂指令集(CISC)精简指令集(RISC)精简指令集(RISC)精简指令集(RISC)是否37、开源 未开源 未开源 未开源 已开源 已开源 已开源 优点 全自主/供应链安全/免费/灵活 生态完善/自主程度较高 高性能/生态完善 自主程度高/供应链安全/免费 性能强大/自主程度高/供应链安全/免费 自主程度高/供应链安全/免费/灵活 缺点 生态不完善 供应链风险/需要授权费 授权费高/供应链风险/授权层级低 生态不完善 生态不完善 生态不完善 国内外应用公司 龙芯中科/电科申泰 Apple/华为海思/飞腾信息/兆易创新 Intel/AMD/海光信息/上海兆芯 北京君正 国芯科技/中晟宏芯 平头哥/国芯科技 数据来源:海光信息,龙芯中科,兆易创新,国芯科技等公司资料,东方证券研究所 (1)38、x86 架构:主导桌面架构:主导桌面/服务器服务器 CPU 市场市场 基于 CISC(复杂指令集)的 x86 架构是一种为了便于编程和提高存储器访问效率的芯片设计体系,包括两大主要特点:一是使用微代码,指令集可以直接在微代码存储器里执行,新设计的处理器,只需增加较少的晶体管电路就可以执行同样的指令集,也可以很快地编写新的指令集程式;二是拥有庞大的指令集,x86 拥有包括双运算元格式、寄存器到寄存器、寄存器到存储器以及存储器到寄存器的多种指令类型。x86 架构主要参与者包括 Intel、AMD、海光、兆芯等。(2)ARM 架构:崛起移动市场和架构:崛起移动市场和 MCU 市场市场 ARM 架构过39、去称作进阶精简指令集机器,是一个 32 位精简指令集处理器架构,其广泛地使用在许多嵌入式系统设计,近年来也因其低功耗多核等特点广泛应用在数据中心服务器市场。早期ARM 指令集架构的主要特点:一是体积小、低功耗、低成本、高性能;二是大量使用寄存器,且大多数数据操作都在寄存器中完成,指令执行速度更快;三是寻址方式灵活简单,执行效率高;四是指令长度固定,可通过多流水线方式提高处理效率。ARM 架构的 CPU 参与者包括飞腾、鲲鹏等,还有诸多 MCU 厂商用 ARM 架构设计相关产品,包括意法半导体、兆易创新、普冉股份、恒烁股份等。(3)RISC-V 架构:物联网时代的新选择架构:物联网时代的新选择 40、RISC-V是加州大学伯克利分校设计并发布的一种开源指令集架构,其目标是成为指令集架构领域的 Linux,主要应用于物联网(IoT)领域,但可扩展至高性能计算领域。RISC-V 采用BSDLicense 发布,由于允许衍生设计和开发闭源,吸引了一大批公司的关注,目前已有不少公司开发基于 RISC-V 的 IP 核,如 Si-Five、台湾晶心、阿里平头哥等已可提供基于 RISC-V 的处理器 IP 核,部分企业如兆易创新、北京君正等已开发出基于 RISC-V 的 MCU 芯片等。但整体上,由于 RISC-V 产业生态还比较薄弱,未来的发展仍有较长一段路要走。RISC-V 架构的参与者包括阿里平41、头哥,MCU 厂商包括国芯科技、赛昉科技等。(4)MIPS 架构:架构:在学术界影响广泛在学术界影响广泛 MIPS 是高效精简指令集计算机体系结构中的一种,MIPS 的优势主要有三点:一是发展历史早,MIPS 在 1990 年代已经广泛使用在服务器、工作站设备上。二是在学术界影响广泛,计算机体系结构教材都是以 MIPS为实际例子。三是 MIPS在架构授权方面更为开放,授权门槛远低于 x86、ARM,在2019年曾经有开放授权的实际动作,并且MIPS允许授权商自行更改设计、扩展指令,允许二次授权。(5)POWER 架构:架构:在部分汽车控制中有所应用在部分汽车控制中有所应用 POWER 架构是由42、 IBM 设计的一种 RISC 处理器架构,POWER 在大型机领域独具优势。POWER3 是全球首款 64 位架构处理器,开始应用铜互联和 SOI(绝缘体上硅)技术。直至 POWER9 依然追求最高性能,不仅具备乱序执行、智能线程等技术,还实现了 SMP(对称多处理技术)的硬件一致性处理。POWER 架构 CPU价格高昂,主要应用于高端服务器领域,市场份额逐渐减少。POWER 架构目前恩智浦、飞思卡尔和国芯科技的部分产品中有采用。2.3.2 EDA 工具软件基本被垄断,软件工具集群被卡脖子 EDA 工具软件可大致可分为芯片设计辅助软件、可编程芯片辅助设计软件、系统设计辅助软件等三类,可用于逻43、辑综合、布局布线、仿真、时序分析、物理验证等。目前国内厂商使用的 EDA 软件主要是 Synopsys、Cadence 和 Mentor Graphics、华大九天,其中美国公司 Synopsys、Cadence和Mentor Graphics三巨头占据了EDA设计软件市场95%以上的市场份额,控制了EDA设计软件的发展。Synopsys、Cadence 等公司还将自己的软 IP 集成在设计软件中,垄断了优化服务和基于设计库的解决方案,进一步增加了用户黏性,也提高了行业壁垒。CPU 专用专用 EDA 国产替代难度大国产替代难度大。我国的 CPU 专用 EDA 工具例如数字仿真、逻辑综合、建模、44、布局布线等水平比较差,长期依赖国外产品,尚无法完成完整集成电路的功能设计、综合验证和物理设计等全流程的软件工具集群,完全替换应用的难度大。2.3.3 材料、设备、晶圆厂国产化率低,在诸多限制下提升困难 2022 年年制造设备几家巨头占市场份额制造设备几家巨头占市场份额 80%以上。以上。2022 年在半导体制造设备领域,美国的 AMAT公司、Lam Research 公司、KLA-Tencor 公司,荷兰的 ASML 公司,日本的 Tokyo Electron 和Dainippon Screen 公司的销售额几乎占全球市场的 80%以上。尤其是光刻机,核心技术掌握在荷兰的 ASML 公司,该公45、司是全球唯一的高端光刻机生产商,其高端光刻机不仅售价高,而且产量低,优先被英特尔、台积电、三星电子抢购,三家公司均占有股份。相较之下,国内晶圆厂面临先进制程扩产的设备进口贸易管制。2022 年年境内晶圆厂市场份额比重低于境内晶圆厂市场份额比重低于 10%,工艺水平,工艺水平低于境外晶圆厂。低于境外晶圆厂。芯片制造环节主要涉及的企业有台积电、三星、GlobalFoundries、中芯国际等,其中 2022 年境内企业占全球市场份额的比重低于 10%。工艺水平上,台积电、三星等垄断了先进制程代工,美国针对中国算力芯片公司的贸易管制给发展带来挑战。2021 年年半导体材料国产化率不足半导体材料国产化46、率不足 15%。半导体材料整体国产化率低,关键材料国产化替代的需求十分迫切。2021年晶圆制造材料整体国产化率不足15%,其中工艺制程和先进封装领域,半导体材料的国产化率更低。封测环节中国企业具备优势。封测环节中国企业具备优势。封测行业位于半导体产业链末端,其附加价值较低,劳动密集度高,技术壁垒较低,涉及的企业有 Amkor、ASE 日月光、KYEC、通富微电子等。总体来看,在芯片产业链的六大环节中,唯有封测环节,中国企业具有明显优势,不会受到其他国家和地区制约。2.4 AI 芯片的关键性能差异 2.4.1 AI 芯片的关键特征包含数据特点、计算范式、精度、重构能力等 1)新型的计算范式:控制47、流程简化、计算量增大)新型的计算范式:控制流程简化、计算量增大 AI 计算包括传统计算和新的计算特质,处理的内容往往是非结构化数据(视频、图片等)。处理的过程通常需要很大的计算量,基本的计算主要是线性代数运算(如张量处理),而控制流程则相对简单。2)训练和推断)训练和推断:需要高效的数据处理能力:需要高效的数据处理能力 AI 系统通常涉及训练(Training)和推断(Inference)过程。简单来说,训练过程是指在已有数据中学习,获得某些能力的过程;而推断过程则是指对新的数据,使用这些能力完成特定任务(比如分类、识别等)。满足高效能机器学习的数据处理要求是 AI 芯片需要考虑的最重要因素。48、3)数据精度:低精度成为趋势)数据精度:低精度成为趋势 低精度设计是 AI 芯片的一个趋势,在针对推断的芯片中更加明显。对一些应用来说,降低精度的设计不仅加速了机器学习算法的推断(也可能是训练),甚至可能更符合神经形态计算的特征。2.4.2 AI 芯片设计趋势 1)云端训练和推断:大存储、高性能、可伸缩)云端训练和推断:大存储、高性能、可伸缩 存储的需求(容量和访问速度)越来越高,处理能力推向每秒千万亿次(Peta FLOPS),并支持灵活伸缩和部署。随着 AI 应用的爆发,对推断计算的需求会越来越多,一个训练好的算法会不断复用。推断和训练相比有其特殊性,更强调吞吐率、能效和实时性,未来在云端49、很可能会有专门针对推断的 ASIC芯片(如 Google的第一代TPU),提供更好的能耗效率并实现更低的延时。2)边缘设备:)边缘设备:也需要具备一定的学习、本地训练能力也需要具备一定的学习、本地训练能力 相对云端应用,边缘设备的应用需求和场景约束要复杂很多,针对不同的情况可能需要专门的架构设计。抛开需求的复杂性,目前的边缘设备主要是执行“推断”。在这个目标下,AI 芯片最重要的就是提高“推断”效率。目前,衡量 AI 芯片实现效率的一个重要指标是能耗效率TOPs/W,这也成为很多技术创新竞争的焦点。未来,越来越多的边缘设备将需要具备一定的“学习”能力,能够根据收集到的新数据在本地训练、优化和更50、新模型。这也会对边缘设备以及整个 AI 实现系统提出一些新的要求。最后,在边缘设备中的 AI 芯片往往是 SoC 形式的产品,AI部分只是实现功能的一个环节,而最终要通过完整的芯片功能来体现硬件的效率。这种情况下,需要从整个系统的角度考虑架构的优化。因此,终端设备 AI 芯片往往呈现为一个异构系统,专门的 AI 加速器和 CPU,GPU,ISP,DSP 等其它部件协同工作以达到最佳的效率。3)软件定义芯片)软件定义芯片:能够实时动态改变功能,满足软件不断变化的计算需求能够实时动态改变功能,满足软件不断变化的计算需求 在 AI 计算中,芯片是承载计算功能的基础部件,软件是实现 AI 的核心。这里51、的软件即是为了实现不同目标的 AI 任务,所需要的 AI 算法。对于复杂的 AI 任务,甚至需要将多种不同类型的 AI 算法组合在一起。即使是同一类型的 AI 算法,也会因为具体任务的计算精度、性能和能效等需求不同,具有不同计算参数。因此,AI 芯片必须具备一个重要特性:能够实时动态改变功能,满足软件不断变化的计算需求,即“软件定义芯片”。3 国产国产厂商的机遇:数据中心、国产化和先进封装厂商的机遇:数据中心、国产化和先进封装 3.1 数据中心快速发展带来行业新机遇 我国数据中心业务规模持续高速增长。我国数据中心业务规模持续高速增长。根据工信部信息通信发展司数据,2017 年我国数据中心市场总52、机架数量 166 万架,2022 年预测达到 670 万架,2017-2022E 复合增速达 32.2%。根据信通院发布的数据中心白皮书,随着我国各地区、各行业数字化转型的深入推进,我国数据中心市场收入将保持增长态势。图 9:我国数据中心机架规模 数据来源:工信部信息通信发展司,信通院,东方证券研究所 东数西算东数西算工程工程带来大量服务器带来大量服务器相关软硬件相关软硬件需求。需求。东数西算工程将通过构建数据中心、云计算、大数据一体化的新型算力网络体系,将东部算力需求有序引导到西部,优化数据中心建设布局,促进东西部协同联动。于2022年 2月,在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵53、州、甘肃、宁夏 8 地启动建设国家算力枢纽节点,并规划了 10 个国家数据中心集群。各地数据中心都将集聚大量服务器,如韶关数据中心集群提升网络级别至国家级骨干网络枢纽节点,预计到 2025年,韶关数据中心集群将建成 50 万架标准机架、500 万台服务器规模,投资超 500 亿元。3.2 在国产化浪潮中不断突破不同市场 国产国产 CPU 在在政务、企业、消费级市场层层突破。政务、企业、消费级市场层层突破。CPU 市场主要分为三类:政务及重点行业市场、企业级市场以及消费级市场,它们的需求特点各异。政务及重点行业市场,对安全性和定制化的要求远高于消费级市场,同时对产业生态的要求相对较低,与国产 C54、PU当前的发展现状非常契合,所以此板块是近期国产 CPU的核心市场。企业级市场对产业生态的要求高于政务但低于消费级市场,此板块是国产 CPU未来重要的增量市场。消费级市场对产业生态的要求最高,对性价比较为敏感,迭代周期短,是国产 CPU 长期需突破的目标市场,尤其是在桌面 CPU 生态方面还有较大的差距,还需要重点弥补。166226315401520670831672373094205400100200300400500600700800201720182019202020212022E总机架数量(万架)大型规模以上机架数量(万架)图 10:CPU 三类市场划分及特点 数据来源:龙芯中科,东方55、证券研究所 政府及国有企事业单位政府及国有企事业单位为国产为国产 CPU 主阵地,主阵地,PC 芯片芯片已成已成百百亿级市场。亿级市场。政府机关和国有企事业单位是国产 CPU 的主阵地,根据国家统计局公布数据,推断我国今年国有单位就业人数在 5600-5700 万人(2020 年为 5563 万人),根据统计局 2018 年公布的数据,规上企业计算机人均保有量为 0.29,考虑到政府和一些重要行业存在内网机需求,则假设人均保有量大约在 0.29-0.58 之间。;根据海光信息公布的 CPU 价格数据,预计 PC 芯片价格在 1k 左右,则 PC 芯片市场规模在 162-330 亿元之间。表 656、:PC 芯片市场规模测算 名称 悲观情形 乐观情形 国有单位就业人数(万人)5600 5700 每人配备 PC 数量(台/人)0.29 0.58 PC 数量(万台)1624 3306 PC 芯片价格(万元)0.1 0.1 PC 芯片市场规模(亿元)芯片市场规模(亿元)162 330 数据来源:国家统计局,海光信息,东方证券研究所测算 党政和重要行业的企业级市场为国产服务器主阵地,党政和重要行业的企业级市场为国产服务器主阵地,2022年年服务器芯片市场规模约服务器芯片市场规模约130亿亿美美元。元。党政、国有企业和部分重要领域的民营企业是国产服务器主阵地,根据 IDC 数据,政府需求占服务器总需57、求比重约 9.1%,重要行业包括金融、电信、公共事业、能源、交通、教育、医疗等需求约占比 38.4%,2022 年合计服务器芯片的销售额约为 130 亿美元。表 7:2022 年中国服务器芯片市场规模 行业 服务器芯片市场规模(亿美元)党政 24.9 金融 30.6 电信 49.3 公共事业 5.6 能源 4.5 交通 6.1 教育 5.7 医疗 3.3 总计总计 130 数据来源:IDC,东方证券研究所 消费级市场空间广阔,国产化势在必行。消费级市场空间广阔,国产化势在必行。国产CPU在关键性能指标、使用体验、生态建设等方面与海外厂商仍存在差异,目前很难在消费级市场具备竞争力。但底层硬件、基58、础建设自主化是势在必行的,信创政策不断强调关键技术自主可控原则,在关键平台、关键组件以及关键信息基础 设施上形成自主研发能力,降低外部依赖、避免单一依赖,消费级市场虽然不及政务和重要领域央国企对信息安全要求那么高,但是也属于信息化的关键平台和组件,推行自主化会不断投入人力物力持续进行,与海外厂商的差距年限也呈逐步缩小趋势,终将进入消费级市场。3.3 先进封装助力国产 CPU 企业弯道超车 后摩尔时代的到来,我国我国CPU企业有望通过封测技术弯道超车企业有望通过封测技术弯道超车。从芯片制造工艺来看,一方面,CPU 制程进入后摩尔定律时期升级速度趋缓,国产 CPU 性能与国际主流水平逐步缩小;另一59、方面,先进封装技术成为竞争新赛道,我国封测厂商长电科技和通富微电在全球前五中占据两席,通富与AMD紧密合作,在全球市场具备一定话语权。先进封装的出现,让业界看到了通过封装技术推动芯片高密度集成、性能提升、体积微型化和成本下降的巨大潜力,先进封装技术正成为集成电路产业发展的新引擎,我国 CPU企业有望通过封测技术弯道超车,弥补先进制程能力不足的缺陷。国产国产 CPU已经已经可以通过先进封装技术实现性能提升与应用场景拓展。可以通过先进封装技术实现性能提升与应用场景拓展。龙芯中科最新的 3D5000通过 Chiplet 把两个 3C5000 硅片封装在一起,是一款 32 核 CPU产品,已经可以面向60、服务器市场使用,可满足通用计算、大型数据中心、云计算中心的计算需求。图 11:龙芯中科 3D5000 芯片 图 12:3D5000 芯片由 2 颗 3C5000 芯片封装而成 数据来源:龙芯中科,东方证券研究所 数据来源:龙芯中科,东方证券研究所 4 投资建议投资建议 AI 算力、低功耗等对服务器算力芯片提出新的要求,英伟达 GH200 有望加速全球 AI 服务器算力芯片市场变革,中国芯片企业在面临挑战的同时,也有望迎来发展机遇。我们建议关注海光信息(688041,买入)、寒武纪-U(688256,未评级)、龙芯中科(688047,未评级)、国芯科技(688262,未评级)、芯原股份(688561、21,未评级)、北京君正(300223,买入)、通富微电(002156,未评级)、长电科技(600584,买入)、深科技(000021,未评级)等。4.1 海光信息:国产服务器算力芯片龙头 海光信息技术股份有限公司成立于2014年,主要从事高端处理器、加速器等计算芯片产品和系统的研究、开发,目标成为中国最重要的计算机芯片设计企业,为中国信息产业的强盛提供核心计算引擎。图 13:海光信息公司及产品发展沿革 数据来源:海光信息招股书,东方证券研究所 上游公司与上游公司与 AMD 共建子公司,拿下共建子公司,拿下 IP 授权关键核心技术。授权关键核心技术。海光处理器源于 AMD 的技术授权,采用 X62、86 架构,支持国内外主流操作系统、数据库、虚拟化平台或云计算平台,能够有效兼容目前存在的数百万款基于 X86 指令集的系统软件和应用软件,具有优异的生态系统优势。目前海光处理器性能参数上与国际同类型主流处理器产品相当,提供从 4 到 32 物理核心,8 到 64 线程,最多 128 路 PCle 扩展,8 通道内存支持,以及针对虚拟机性能优化的大容量缓存设计,能够为云计算、大数据分析、分布式元存储、Web 应用,人工智能、数据库等众多场景,提供强劲计算能力,具有国际先进水平的竞争力。海光拥有海光拥有 CPU 和和 DCU 两类高端处理器产品,两类高端处理器产品,覆盖覆盖服务器、工作站等计算、63、存储设备中对高端处服务器、工作站等计算、存储设备中对高端处理器的功能需求。理器的功能需求。CPU 稳步迭代,稳步迭代,满足互联网、金融、电信、交通、能源等多行业需求满足互联网、金融、电信、交通、能源等多行业需求。海光 CPU 系列产品兼容x86 指令集以及国际上主流操作系统和应用软件,性能优异,软硬件生态丰富,安全可靠,可按应用场景划分为 7000,5000,3000 三大产品系列。公司坚持自主创新,通过多代处理器产品的送代设计与开发,已基本形成“量产一代、研发一代、规划一代”的产品持续演进节奏。目前,海光 CPU系列产品中海光二号为主力销售产品,海光三号已经实现小批量销售,海光四号、海光五号64、处于研发阶段。表 8:海光系列 CPU 特性及应用 系列系列 核心数核心数 PCIe 通道数通道数 内存通道数内存通道数 内存容量内存容量 最高加速频率最高加速频率 应用领域应用领域 7000 16-32 128 8 2TB/对计算能力、扩展能力、吞吐量有高要求的领域(包括云计算、大数据、数据库、分布式存储、人工智能等)5000 8-16 64 4 1TB/云计算、边缘计算、分布式存储等应用场景(满足互联网、金融、电信、交通、能源等多行业和企业的运算需求)3000 4-8 32 2/3.2GHz 入门级服务器、工作站、工业控制等市场(面向中小企业客户和专业人员)数据来源:海光官网,东方证券研究65、所 DPU 步入商业化,持续投入研发。步入商业化,持续投入研发。海光 DCU 系列产品以 GPGPU 架构为基础,兼容通用的“类CUDA”环境以及国际主流商业计算软件和人工智能软件,软硬件生态丰富,可广泛应用于大数据处理、人工智能、商业计算等应用领域。目前海光 DCU 系列产品中,海光 DCU 系列产品深算一号为公司 GPGPU 主要在售产品,深算二号、深算三号处于研发阶段。表 9:海光 DPU 规格特点 海光海光 8100 产品图片产品图片 典型功耗典型功耗 260-350W 典型运算类型典型运算类型 双精度、单精度、半精度浮点数据和各种常见整型数据 计算计算 60-64 个计算单元(最多 66、4096 个计算核心)支持 FP64、FP32、FP16、INT8、INT4 内存内存 4 个 HBM2 内存通道 最高内存带宽为 1TB/s 最大内存容量为 32GB I/O 16LanePCIeGen4 DCU 芯片之间高速互连 数据来源:海光信息招股说明书,东方证券研究所 4.2 寒武纪:领跑中国 AI 芯片市场 中科寒武纪科技股份有限公司成立于 2016年3月,自成立来专注于人工智能芯片产品的研发与技术创新,致力于打造人工智能领域的核心处理器芯片。寒武纪在人工智能芯片设计领域积累了较强的技术和研发优势,是目前国际上少数几家全面系统掌握了智能芯片及其基础系统软件研发和产品化核心技术的企业67、之一,能提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。公司产品公司产品体系成熟,覆盖云边端全矩阵。体系成熟,覆盖云边端全矩阵。公司主要产品包括终端智能处理器 IP、云端智能芯片及加速卡、边缘智能芯片及加速卡以及与上述产品配套的基础系统软件平台。自2016年3月成立以来,寒武纪快速实现了技术的产业化输出,以约每年 1-2 件产品的速度推出了用于终端场景的寒武纪 1A、寒武纪 1H、寒武纪 1M 系列智能处理器;基于思元 220 芯片的边缘智能加速卡及智能模组;基于思元 100、思元 270、思元 290 芯片和思元 370 的云端智能加速卡系列产68、品。图 14:全算力的产品布局 数据来源:2022 寒武纪企业社会责任报告,东方证券研究所 新一代训练芯片寒武纪新一代训练芯片寒武纪 590 训练能力突出。训练能力突出。据寒武纪在 2022 年 9 月介绍,思元 590 采用全新的MLUarch05 架构,训练性能较在售产品有了显著提升。思元 590 可提供更大的内存容量和更高的内存带宽,其 PCIe 接口也较上代实现了升级。借助借助车云车云协同与高效开发优势,开拓车载芯片领域。协同与高效开发优势,开拓车载芯片领域。子公司寒武纪行歌借助既有优势布局,满足智能汽车市场不同的算力需求。1)通过车云协同获得的数据迭代)通过车云协同获得的数据迭代 A69、I 模型,优化用户体验。模型,优化用户体验。自动驾驶芯片可以与寒武纪既有的云端训练产品协作,通过车云协同,将车端的数据快速回传,实现AI 模型的快速迭代升级,优化自动驾驶客户体验;2)提供可以在云端开发自动驾驶模型的软件)提供可以在云端开发自动驾驶模型的软件开发平台。开发平台。提供统一的软件开发平台,方便客户在云端开发相应的自动驾驶模型,并省去不同平台之间的移植、迁移和模型量化的工作,从够缩减模型升级迭代周期,提高开发效率。图 15:车云协同助力数据闭环与 AI 调优 图 16:云边端车协同 数据来源:寒武纪微信公众号,东方证券研究所 数据来源:寒武纪微信公众号,东方证券研究所 公司芯片和处理70、器产品能应用于多个公司芯片和处理器产品能应用于多个“智能“智能+”产业”产业。公司的智能芯片和处理器产品可高效支持视觉、语音和自然语言处理等技术相互协作融合的多模态人工智能任务,辐射智慧互联网、智能制造、智能交通、智能教育、智慧能源、智慧电力、智慧物流、智慧畜牧、智慧金融、智能家居、智慧医疗等“智能+”产业。表 10:寒武纪产品行业解决方案示例 行业行业 解决方案解决方案 作用效果作用效果 智慧智慧交通交通 车路协同、智慧铁建等解决方案 提升云端及边缘端算力,增强智慧轨道及交通系统的可靠性,推动交通行业的智能化升级。智慧智慧电力电力 变电站在线巡视系统、输电线路巡检方案 用智能装备取代人工例行71、巡检,将视频图像高速传输,节省成本,简化运维工作,支撑电网企业数字化、智能化转型。智慧智慧医疗医疗 超声智能筛查解决方案 以超声视频 AI 为切入点,对超声视频流进行实时智能分析,实现毫米级读取超声影像,快速、精准地抓取病灶,大幅减轻医生阅片负担。有效赋能基层医疗机构,为边远地区的医院等提供高效的 AI 辅助筛查。数据来源:寒武纪微信公众号,东方证券研究所 统一的基础系统软件平台打破开发壁垒,加速产品落地。统一的基础系统软件平台打破开发壁垒,加速产品落地。公司为云边端智能芯片和处理器产品研发了统一的基础系统软件平台,彻底打破云端、边缘端、终端之间的开发壁垒,无须繁琐的移植即可让同一人工智能应用72、程序便捷高效地运行在公司云边端所有产品之上。云边端体系化的智能芯片和处理器产品以及完全统一的基础系统软件平台可大幅加速人工智能应用在各场景的落地,加快公司生态的拓展。图 17:训练软件平台 图 18:推理加速引擎 MagicMind 数据来源:寒武纪官网,东方证券研究所 数据来源:寒武纪官网,东方证券研究所 4.3 龙芯中科:从指令集到架构全自主的 CPU“龙芯”系列是我国最早研制的通用处理器系列之一,于2001年在中科院计算所开始研发,得到了中科院、国家自然科学基金、863、973、核高基等项目的大力支持。2008 年 3 月 5 日,公司前身龙芯服务由转移中心和中科算源共同出资设立,开始进73、行处理器产品产业化的前期探索。2020 年,公司推出了自主指令系统 LoongArch(龙芯架构),公司整体变更为股份有限公司。公司实控人为胡伟武和晋红夫妇,胡伟武长期担任公司董事和总经理,晋红长期担任公司投资总监。胡伟武持有天童芯源 47.67%的股权,晋红持有芯源投资 15.02%的合伙份额。胡伟武和晋红通过天童芯源、芯源投资、天童芯正和天童芯国合计控制龙芯中科 33.61%的表决权。图 19:龙芯中科股权结构(截至 2023.4.28)数据来源:龙芯中科招股书,龙芯中科公告,东方证券研究所 自主研发自主研发 LoongArch 指令集,芯片性能追赶国际主流产品指令集,芯片性能追赶国际主流74、产品。公司自研 IP 和架构分为两步,首先基于开源 MIPS 指令集定义自主指令集系统,然后基于自主指令集推出龙芯架构。第一步第一步:摒弃直接获取:摒弃直接获取 IP 核授权或指令系统授权,自主定义上百条指令,形成核授权或指令系统授权,自主定义上百条指令,形成 MIPS 兼容的兼容的LoongISA 指令系统。指令系统。2018 年至 2020 年,公司销售主要产品基于 MIPS 指令系统,但公司区别于国内其他 CPU 设计企业多数采用的 IP 核授权或指令系统授权模式,一直致力于自主研发指令系统,自研发初期即选择基于开放度较高的指令系统并结合自研的模式,在授权体系相对开放的MIPS 指令系统75、基础上扩展了数百条自定义指令,形成了 MIPS 兼容指令系统 LoongISA,并在多款 CPU 芯片中得到应用。第二步第二步:推出了自主指令系统:推出了自主指令系统 LoongArch(龙芯架构),具备更高运行效率。(龙芯架构),具备更高运行效率。公司在经过长达十余年的潜心研发之后,于 2020 年推出了自主指令系统龙芯架构 LoongArch。龙芯指令系统具有较好的自主性、先进性与兼容性。龙芯指令系统从整个架构的顶层规划,到各部分的功能定义,再到细节上每条指令的编码、名称、含义,在架构上进行自主重新设计,具有充分的自主性。LoongArch 吸纳了现代指令系统演进的最新成果,运行效率更高,76、同原有兼容指令系统相比,不仅在硬件方面更易于高性能低功耗设计,而且在软件方面更易于编译优化和操作系统、虚拟机的开发,相同的源代码编译成 LoongArch 比编译成 MIPS 平均动态指令数可减少 10%-20%。图 20:公司龙芯自主指令系统 数据来源:龙芯中科,东方证券研究所 LoongArch 架构能兼容架构能兼容 X86、ARM,且通过了知识产权评估。,且通过了知识产权评估。该架构可充分融合 X86、ARM 等国际主流指令特性,可实现跨指令平台应用兼容。并通过国内权威第三方机构中国电子信息产业发展研究院的知识产权评估,认定 LoongArch 指令系统与 ALPHA、ARM、MIPS、77、POWER、RISC-V、X86 为不同的指令系统设计。目前,龙架构已得到国际开源软件界广泛认可与支持,正成为与 X86/ARM 并列的顶层开源生态系统。基于基于 LoongArch 架构的芯片产品已上市销售,架构的芯片产品已上市销售,实现服务器等领域的应用实现服务器等领域的应用。经过长期积累,龙芯中科基本完成技术“补课”,基于LoongArch架构的芯片产品龙芯3A5000已于2020年底流片,并于 2021 年 5 月开始销售,面向服务器市场的 32 核产品 3D5000 已于 2023 年 4 月 8 日发布,集成了 32 个高性能 LA464 处理器核,频率 2.0GHz,支持动态频率78、及电压调节;片内集成 64MB片上 L3 共享缓存以及 8 个 72 位 DDR 3200 内存控制器,支持 ECC 校验;搭载 5 个 HT3.0 高速接口,支持自研桥片及双路、四路 CPU 扩展。图 21:龙架构及其特性 图 22:龙芯 3D5000 规格参数 数据来源:龙芯中科官网,东方证券研究所 数据来源:快科技,东方证券研究所 相关领域一通百通便于跨界,也具备相关领域一通百通便于跨界,也具备 MCU、GPU 核心技术实力。核心技术实力。公司掌握了处理器核及相关 IP核设计的核心技术,包括 CPU、GPU、内存控制器、IO 接口控制器、高速 SRAM、高速接口、锁相环等核心 IP。龙芯79、产品覆盖桌面服务器、工控和嵌入式领域。龙芯产品覆盖桌面服务器、工控和嵌入式领域。龙芯中科自研的芯片系列包括龙芯 1 号、龙芯 2号、龙芯 3 号三大系列处理器芯片及桥片等配套芯片。其中,龙芯 1、2、3 号系列处理器芯片分别服务于嵌入式领域、工业控制与终端等领域和桌面和服务器领域。而龙芯中科的配套芯片包括桥片及正在研发尚未实现销售的电源芯片、时钟芯片等,主要与龙芯 1 号、2 号、3 号处理器芯片配套使用。龙芯 1 号、2 号、3 号处理器芯片及配套芯片的主要客户是板卡、整机厂商,系列产品在电子政务、能源、交通、金融、电信、教育等行业领域已获得广泛应用。图 23:龙芯 CPU 系列及其应用 数80、据来源:龙芯生态白皮书(2022 年),东方证券研究所 5 风险提示风险提示 与头部厂商技术差距缩小不及预期:与头部厂商技术差距缩小不及预期:CPU、GPU市场被国外厂商占领多年,目前呈对海外产品进行国产替代的态势,如与头部厂商技术差距缩小不及预期,势必影响国产替代进程进而影响行业内相关公司业绩。信创市场增长不及预期:信创市场增长不及预期:信创市场目前仍是国产 CPU、GPU 等重要下游,若信创市场增长不及预期,势必影响行业内相关公司业绩。产业链供应链保障不及预期:产业链供应链保障不及预期:CPU、GPU领域是美国贸易管制的重点领域,产业链供应链面临层层封锁,设计、生产和迭代升级面临阻碍,若管81、制进一步严苛,可能进一步影响行业内相关公司正常生产进而影响业绩。假设条件变化影响测算结果的风险:假设条件变化影响测算结果的风险:前文测算基于国有单位就业人数、人均配备 PC 和单价等假设,若假设条件变化,也将影响测算结果。6 附录附录 非上市算力芯片公司非上市算力芯片公司 6.1 华为:布局五大系列芯片,鲲鹏、昇腾满足服务器和 AI需求 布局五大系列芯片。布局五大系列芯片。华为公司自 1991 年起投身芯片事业,到目前共有五大系列芯片,逐步实现了全场景布局。五大系列芯片包括手机消费级设备领域的麒麟芯片、服务器领域的鲲鹏芯片、人工智能领域的昇腾芯片、5G 手机基带领域的巴龙芯片以及家用路由器领域82、的凌霄芯片。图 24:华为五大系列芯片全景图 数据来源:华为官网,东方证券研究所 鲲鹏芯片鲲鹏芯片在非在非 x x8686 指令集产品中有明显优势指令集产品中有明显优势。“鲲鹏芯片族”是集合“算、存、传、管、智”功能为一体的处理器。其中,2019 年发布的鲲鹏 920 是华为鲲鹏获得 ARMv8 指令集永久授权后,自主研发设计的最具代表性的产品。鲲鹏 920 处理器是业界第一颗采用 7nm 工艺的数据中心级的 ARM 架构处理器,集成最多 64*自研核,支持 64 核、48 核、32 核等多种型号。通过优化分支预测算法、提升运算单元数量、改进内存子系统架构等一系列微架构设计,大幅提高处理器性能83、。典型主频下,SPECint Benchmark 评分超过 930,超出业界标杆 25%,同时,能效比优于业界标杆 30%,在非 x86 指令集产品中算力有明显优势。表 11:鲲鹏 920 处理器产品特性 高性能高性能 鲲鹏 920 处理器的整型测试性能超过 930 分,是鲲鹏 916 的三倍性能。高吞吐高吞吐 内存带宽高:内存通道数量提升到 8 通道,内存速率提升至 2933MHz,带宽提升 2.4 倍。IO 带宽高带宽高 PCIe3.0 升级到 PCIe4.0,速率翻番,IO 总带宽提升 1.7 倍。网络带宽高网络带宽高 集成 100GRoCE 以太网卡功能,网络带宽提升 10 倍 高集成84、高集成 鲲鹏 920 处理器集成了 CPU、南桥、网卡、SAS 存储控制器等 4 颗芯片的功能,能够释放出服务器更多槽位,用于扩展更多加速部件功能,大幅提高系统的集成度。高效能高效能 鲲鹏 920 处理器在相同功耗下性能表现提高了 35%。数据来源:世界互联网大会官网,百度百科-鲲鹏 920 处理器,东方证券研究所 基于鲲鹏处理器,华为基于鲲鹏处理器,华为在云计算、大数据等领域在云计算、大数据等领域进行进行重要战略布局。重要战略布局。新应用、新技术、新计算架构,百亿级联接、爆炸式数据增长将重塑 ICT 产业新格局,催生新的计算产业链条,涌现出新的厂家和新的生态体系。在此趋势下,华为作为鲲鹏计算85、产业的成员之一,推出了鲲鹏生态伙伴计划,推动和完善华为鲲鹏生态。鲲鹏计算产业包括全栈 IT 基础设施、行业应用及服务,涵盖 PC、服务器、存储、操作系统、中间件、虚拟化、数据库、云服务、行业应用以及咨询管理服务等。鲲鹏计算满足高性能、低功耗、低延时的绿色计算要求,有巨大的市场空间。图 25:IDC 预测 2023 年全球计算产业投资额 图 26:华为鲲鹏计算产业定位与展望 数据来源:鲲鹏计算产业发展白皮书,东方证券研究所 数据来源:鲲鹏计算产业发展白皮书,东方证券研究所 生态兼具兼容性与自主性,兼容生态兼具兼容性与自主性,兼容 ARM 生态也针对多场景建设自主生态。生态也针对多场景建设自主生态86、。在鲲鹏生态建设上,华为与全球生态厂家合作,重点投入了操作系统、编译器、工具链、算法优化库等的开发和维护,同时针对数据中心大数据、分布式存储、云原生应用等场景,开发基于鲲鹏处理器的解决方案产品和参考设计。由于拥有 ARMv8 指令集永久授权,鲲鹏计算产业能兼容全球 ARM 生态,二者共享生态资源,互相促进、共同发展。而为了保证鲲鹏计算产业的可持续演进,鲲鹏处理器还从指令集和微架构两方面进行兼容性设计,确保既可以适应未来的应用和技术发展演进的需求,又能后向兼容保护用户已有投资。图 27:华为 5 大关键芯片演进策略 数据来源:鲲鹏计算产业发展白皮书,东方证券研究所 鲲鹏处理器在行业数字化转型过程87、中发挥重要作用。鲲鹏处理器在行业数字化转型过程中发挥重要作用。数字化和行业的结合正在向纵深发展。制造业从大规模传统制造走向大规模智能制造;服务业(如金融、电信、医疗)从简单服务走向综合服务,公共事业从被动服务走向主动服务(如政府、交通)。行业从端到端打通各种数据,实现行业自身服务升级的同时,提升效率、降低运营成本和快速迭代成为各行各业对 IT 技术、计算产 业的基础诉求。鲲鹏处理器端云同构、绿色节能与多核高并发的强劲算力底座,在制造业、服务业与公共事业的数字化转型中发挥重要作用。表 12:各行业数字化转型需求 行业行业 需求来源需求来源 端端-云云同构同构 绿色绿色节能节能 高高并并发发 互联88、网互联网 云端数据中心服务器走向同构,移动应用将受益于架构和指令集的兼容;数据拥有海量、瞬时的特性。电信电信 5G 打破数据中心与边缘终端界限,催生新兴业务。政府政府 需要海量数据管理与分析、海量数据联接和海量城市终端感知,共享城市资源。制造业制造业 工业互联网催生低功耗嵌入式芯片需求,需要通过传感器、嵌入式控制器和应用系统联网,构建“端-云”体系架构,结合 AI,实现制造业的集中化和智能化。交通交通 端测需要全景全量感知周边态势和环境信息,及时执行扣费;边缘侧需要及时准确的智能决策信息;云端需要可持续迭代演进的大脑。金融金融 渠道与实时交易类场景进行全分布式转型,需要更高算力能效比;经营分析89、场景将切换为开放架构,需要高分布式并发能力;智慧金融需要兼顾高并发和移动端的协同;传统业务场景向云化改造,需要低功耗降成本。医疗医疗 大数据和 AI 技术将驱动实现疾病预测、个性化精准医疗、个性化药物、医疗图谱、医学影像分析等的智慧医疗;医疗数据多样且海量,催生绿色低功耗和大算力的计算需求。数据来源:鲲鹏计算产业发展白皮书,东方证券研究所 6.2 飞腾:从 CPU 研发到全栈式方案 飞腾信息技术有限公司由中国电子信息产业集团、天津市滨海新区政府和天津先进技术研究院于2014 年联合支持成立。飞腾公司致力于飞腾系列国产高性能、低功耗通用计算微处理器的设计研发和产业化推广。表 13:飞腾公司发展沿90、革 年份年份 飞腾公司发展重要事件飞腾公司发展重要事件 2014 8 8 月月,天津飞腾信息技术有限公司成立 2015 3 3 月月,飞腾发布 FT-1500A 系列 CPU,主要面向桌面终端和服务器领域 2016 8 8 月月,飞腾于 Hotchips-28 大会发布 FT-2000/64 高性能服务器 CPU 2017 飞腾推出 FT-2000+/64 高性能服务器 CPU,填补了我国高端通用 CPU 领域的空白 飞腾推出 FT-2000A/2 嵌入式 CPU,飞腾形成了桌面、服务器和嵌入式完善的自主 CPU 产品谱系 2018 1 1 月月,基于飞腾 CPU 的“中国电子网络安全和信息化91、科技创新工程”获国家科技进步一等奖 1111 月月,飞腾 FT-2000+/64 获“中国芯”年度重大创新突破产品奖 1212 月月,飞腾“国产高性能微处理器创新团队”入选国家科技部“重点领域创新团队”2019 9 9 月月,飞腾发布 FT-2000/4 高效能、高安全桌面 CPU 1111 月月,飞腾发布从端到云基于飞腾平台的全栈解决方案白皮书 1212 月月,飞腾安全平台架构标准 PSPA(Phytium Security Platform Architecture)发布 2020 1 1 月月,飞腾 FT-1500A 系列 CPU 及应用荣获国家科技进步一等奖 4 4 月月,飞腾发布解决92、方案方阵,聚焦信创领域应用落地“最后一公里”问题 5 5 月月,飞腾发布软件生态手册,“软硬兼施”加速信创产业进程 7 7 月月,飞腾发布新一代多路服务器 CPU 飞腾腾云 S2500 8 8 月月,FT-2000/4 销量突破 100 万片 1111 月月,基于飞腾 CPU 的全国产化 DCS 在华电集团、华能集团旗下多个电厂成功投运 1212 月月,飞腾发布 8 核高效能桌面 CPU 飞腾腾锐 D2000 1212 月月,飞腾人工智能生态联合实验室正式成立 2021 4 4 月月,公司更名为“飞腾信息技术有限公司”6 6 月月,推出飞腾套片 X100 7 7 月月,飞腾携手 35 家金融行93、业知名生态伙伴重磅发布金融解决方案白皮书 7 7 月月,飞腾发布飞腾基础软件联合实验室、飞腾数据库联合实验室、飞腾云计算联合实验室 8 8 月月,飞腾发布首个硬件生态产品手册 1010 月月,飞腾公司启动“共飞腾”计划二期项目征集令 1010 月月,基于飞腾腾锐 D2000 的国产化 PC 整机成功在中国移动温州分公司信创示范营业厅落地应用 数据来源:飞腾公司官网,东方证券研究所 从仿从仿英特尔架构指令集转向应用英特尔架构指令集转向应用 ARM 指令集。指令集。公司致力于飞腾系列国产高性能、低功耗通用计算微处理器的设计研发和产业化推广。前两代飞腾芯片均停留在学术层面,均采用仿英特尔架构及指令集94、的方法对芯片基础技术进行学习消化。自第三代产品 FT-1000 以来,飞腾芯片转而采用SPARC 指令架构下的 OpenSPARC 指令集。而随着 Sun 公司被 Oracle 收购,SPARC 架构的支持逐步减弱,飞腾芯片逐步转向应用 ARM 指令集,并推出在原有 FT-1500 芯片上改进得来的探索性产品 FT-1500A。2015年 8月飞腾已设计出世界上第一款基于 ARM架构的 64核 CPU。飞腾CPU 同样像华为鲲鹏一样,基于 ARMV8 架构永久授权,其产出成果中,飞腾 2000+/64 核产品性能已经与英特尔主流 E5 部分产品性能相当。飞腾公司产品谱系全、性能高、飞腾公司产品95、谱系全、性能高、低功耗、低功耗、生态完善、自主化程度高。生态完善、自主化程度高。目前产品主要包括高性能服务器 CPU(飞腾腾云 S 系列)、高效能桌面 CPU(飞腾腾锐 D 系列)、高端嵌入式 CPU(飞腾腾珑 E 系列)和飞腾套片四大系列,为从端到云的各型设备提供核心算力支撑。其中,飞腾腾云S系列、飞腾腾锐 D系列、飞腾腾珑 E系列均采用飞腾自主研发的处理器核心。基于飞腾 CPU的产品覆盖多种类型的终端(台式机、一体机、便携机、瘦客户机等)、服务器和工业控制嵌入式产品等,在国内政务办公、云计算、大数据以及金融、能源和轨道交通等行业信息系统领域已实现批量应用。表 14:飞腾 CPU 产品分类及96、定位 类型类型 特性特性 定位定位 高性能服务器高性能服务器 CPU(飞腾腾云(飞腾腾云 S 系列)系列)业界领先的事务处理能力和单位功耗性能 高吞吐率、高性能的服务器领域(如行业大型业务主机、高性能服务器系统和大型互联网数据中心等)高效能桌面高效能桌面 CPU(飞腾腾锐(飞腾腾锐 D 系列)系列)高能效处理器核心,性能卓越、功耗适度 最新产品内置硬件级安全机制 PC、一体机、笔记本、5GRRU 基站、可信终端、高端交换机、图形工作站和一些边缘轻量级服务器产品(同时满足信息化领域对性能、能耗比和高安全的应用需求)高端嵌入式高端嵌入式 CPU(飞腾腾珑(飞腾腾珑 E 系列)系列)高安全、高可靠、97、强实时、低功耗 嵌入式行业(满足行业终端产品、工业控制领域应用产品需求)数据来源:飞腾官网,信创产业发展公众号,东方证券研究所 飞腾研发进展快速,产品迭代迅猛。飞腾研发进展快速,产品迭代迅猛。在自主核心技术的加持下,成立当年 2014 年,飞腾就完成了第一款兼容 ARM指令集的 CPUFT-1500A的研制,各项产品指标被鉴定为“国际先进、国内领先”,获得了 2019 年度国家科技进步一等奖。2019 年,飞腾推出的国际 ARM 体系首款 64 核通用 CPUFT-2000+/64 处理器,填补了国产高端通用 CPU 领域的空白。2022 年,飞腾推出了新一代嵌入式CPU芯片飞腾腾珑E200098、,采取了“柔性架构”大小核设计,可充分满足云终端、行业平板、电力、轨道交通、服务器 BMC、网络设备等行业领域和场景的多样化需求。成立至今,飞腾从两年研发一代产品,到一年研发 2-3 款新产品,创新速度不断升级,行业赋能效应也愈发凸显。目前飞腾已面向不同的应用领域自主研发十余款量产芯片。表 15:飞腾三大产品系列发展路线及应用 年份年份 2014 2015 2016 2017 2018 2019 2020 2021 2022 腾云腾云 S 系列系列 高性能服务器 CPU(应用于计算和存储服务器、云计算、数据中心等)FT-1500A/16 16 核,4DDR3 15GHz 35W FT-200099、+/64 64 核,8DDR4 2.0-2.3GHz 100W S2500 64 核,28 路直连 2.02.2GHz 150W TBD S5000 PSPA1.0 TBD S6000 PSPA2.0 腾锐腾锐 D 系列系列 高能效桌面 CPU(应用于桌面整机、一体机、便携机等)FT-1500A/4 4 核,2DDR3 1.5-2GHz 15W FT-2000/4 4 核,2.6-3.0GHz 10W TBD D2000 PSPA1.0 TBD D3000 PSPA2.0 腾珑腾珑 E 系列系列 高端嵌入式 CPU(应用于嵌入式装备信息系统、工业控制等)FT-2000A/2 2 核 1.0GH100、z 3W TBD E2000 PSPA1.0 TBD E3000 PSPA2.0 数据来源:从端到云-飞腾平台全栈解决方案白皮书,东方证券研究所 飞腾飞腾从从芯片设计逐步转变提供系统级解决方案。芯片设计逐步转变提供系统级解决方案。飞腾从信息系统整体规划与建设角度出发,为集成商和最终用户梳理飞腾生态图谱,并面向各行业需求提供一套从端到云的全栈解决方案。目前飞腾与国内伙伴单位展开合作,形成了基于飞腾平台的云计算全栈、边缘计算全栈、终端全栈、嵌入式全栈生态,为集成商和客户提供了更丰富的选择空间。合作伙伴数量快速突破。合作伙伴数量快速突破。截至 2022 年 6 月底,飞腾的生态伙伴数量已经突破 44101、00 家,包括集成商合作伙伴 300+家、硬件合作伙伴930家、软件合作伙伴3100+家。目前,飞腾已联合数千家国内软硬件厂商,支撑了 2400 多款飞腾平台设备上市,已经和正在适配的软件和外设超过 8300 种,与 8200 多款开源软件产品完成了适配,兼容 200 万级移动 APP 应用。图 28:基于飞腾平台的终端全栈架构 数据来源:从端到云-飞腾平台全栈解决方案白皮书,东方证券研究所 6.3 兆芯:行业拓展成果显著 上海兆芯集成电路有限公司于 2013 年 4 月 27 日在自贸区市场监督管理局登记成立,是一家以从事研究和试验发展为主的企业。现如今掌握了自主通用处理器及其系统平台芯片研102、发设计的核心技术,全面覆盖其微架构与实现技术等关键领域,构建了较为完整的知识产权体系,截至目前已申请 1500 余件专利,获权约 1300 件。2023 年 4 月 12 日起从上海兆芯集成电路有限公司变更为上海兆芯集成电路股份有限公司。表 16:兆芯公司发展沿革 年份年份 兆芯公司发展重要事件兆芯公司发展重要事件 2013 4 月月,上海兆芯集成电路有限公司正式成立。2014 5 月月,成功完成 ZX-C 系列处理器自主设计研发工作。2015 4 月月,ZX-C 系列处理器实现规模量产。2016 6 月月,ZX-C+系列 8 核处理器规模量产。8 月月,兆芯首款采用 SoC 设计的开先KX-103、5000 系列处理器成功流片。8 月月,开先ZX-C+系列 4 核处理器、ZX-100S 芯片组规模量产。8 月月,正式形成“开先系列 PC/嵌入式处理器”和“开胜系列服务器处理器”两大产品体系。10 月月,开先ZX-C 系列处理器荣获中国国际工业博览会金奖。2017 3 月月,开先ZX-C 系列处理器荣获“第十一届(2016 年度)中国半导体创新产品和技术”和“2017 年度大中华 IC设计成就奖”两大奖项。12 月月,开先KX-5000/开胜KH-20000 系列处理器及 ZX-200IO 扩展芯片成功发布。2018 3 月月,采用 16nmFFC 工艺,主频高达 3.0GHz 的开先KX104、-6000 系列处理器成功流片。12 月月,上海科技大学兆芯国产化云桌面实训教室正式挂牌并开放服务。6 月月,ZX-200IO 扩展芯片通过 USB 协会 Platform Interoperability Lab(PIL)测试认证工作,被正式列入USB3.1CertifiedProducts 列表。兆芯因此成为大陆首家自主设计开发该 IP,并且成功实现量产的公司。9 月月,开先KX-6000 系列处理器荣获第 20 届中国国际工业博览会金奖。9 月月,采用兆芯通用处理器的联想昭阳 CF03 笔记本圆满完成 2018 年中非合作论坛北京峰会会务保障工作,全程零故障。2019 3 月月,兆芯开先105、KX-6000 系列处理器荣获 2019 年中国 IC 设计成就奖(年度最佳 FPGA/处理器),兆芯 CPU 研发团队荣获 2019 年中国 IC 设计成就奖(中国优秀 IC 设计团队)。6 月月,开先KX-6000/开胜KH-30000 系列处理器正式发布,主频高达 3.0GHz,率先在国产通用处理器主频关键技术指标上实现重大突破。2020 2 月月,兆芯北京乔迁至中关村集成电路设计园,开启全新发展征程。2021 1 月月,张江兆芯项目顺利奠基开工。2022 11 月月,开胜KH-40000 系列服务器处理器、开先KX-6000GPC/嵌入式处理器成功发布。2023 1 月月,开先KX-6106、000G 系列处理器荣获第十七届“中国芯”优秀技术创新产品奖。4 月月,公司名称变更为“上海兆芯集成电路股份有限公司”。数据来源:兆芯官网,东方证券研究所 产品包括产品包括“开先”“开先”PC/嵌入式处理器和“开胜”服务器处理器系列。嵌入式处理器和“开胜”服务器处理器系列。兆芯基于 X86 的 CPU产品性能优异,生态成熟,具有杰出的软硬件兼容性。根据中国软件评测中心的测试结果,2019 年兆芯推出的开先 KX-6000 系列处理器/开胜 KH-30000 系列处理器单芯片性能已经达到了 7 代 i5 的同等水平。同时开先 KX-6000/开胜 KH-30000 系列处理器均通过了 Windo107、ws 硬件认证,对Windows7、Windows10、中科方德、中标麒麟、普华等国内外主流操作系统进行了适配,从多方面保证了产品的稳定性、可靠性和兼容性。2022 年,开胜KH-40000 系列服务器处理器、开先KX-6000GPC/嵌入式处理器成功发布。与上一代产品相比,开先 KX-6000G 系列处理器能效比提升多达 60%,GPU 性能达到上一代产品的 4 倍,可支持双路 4K 视频解码,芯片空闲功耗降低 50%,能够进一步支撑无风扇 BoxPC、工业平板、电力通讯管理机、OPS 模块等嵌入式计算平台,对于高性能、低功耗、高可靠、高品质图形图像等方面的应用需求,大幅提升用户体验。表 1108、7:兆芯处理器芯片家族 型号型号 图例图例 架构架构 代号代号 工艺工艺 发布发布 日期日期 最高最高 工作频率工作频率 内核数内核数 应用领域应用领域 PC/嵌入式嵌入式 处理器处理器 开先KX-6000G 系列处理器 陆家嘴 16nm Q422 3.3GHz 4 核 一体机、笔记本、便携式终端以及物联网计算平台等(兼顾高性能、低功耗需求)开先KX-6000 系列处理器 陆家嘴 16nm Q219 3.0GHz 8 核/4 核 高性能桌面、便携终端、嵌入式等 开先KX-5000 系列处理器 五道口 28nm Q417 2.0GHz 8 核/4 核 桌面、嵌入式等 开先ZX-C+系列处理器 张109、江 28nm Q316 2.0GHz 4 核 高性能运算 开先ZX-C 系列处理器 张江 28nm Q215 2.0GHz 4 核 高性能运算 服务器服务器 处理器处理器 开胜KH-40000 系列处理器 永丰 16nm Q422 2.7GHz 32 核/16 核/12 核 云计算、大数据分析、视频处理、数据库备份、高性能存储及超融合一体机 开胜KH-30000 系列处理器 陆家嘴 16nm Q219 3.0GHz 8 核 服务器、存储等 开胜KH-20000 系列处理器 五道口 28nm Q417 2.0GHz 8 核 服务器、存储等 开胜ZX-C+FC-1080/1081 系列处理器 张江110、 28nm Q216 2.0GHz 8 核 高性能运算 IO 扩展扩展芯片芯片/芯片组芯片组 ZX-200IO 扩展芯片 /40nm Q417/(对扩展性要求较高的)桌面/便携终端,服务器,嵌入式等 ZX-100S 芯片组 /40nm Q316/服务器、存储、对扩展性要求较高的桌面 数据来源:兆芯官网,东方证券研究所 兆芯产品应用覆盖全面,兆芯产品应用覆盖全面,在金融信创在金融信创桌面桌面 PC 领域拥有高领域拥有高市占率。市占率。目前,基于“开先”、“开胜”系列自主处理器,兆芯携手产业伙伴已经打造出多品牌台式机、笔记本、一体机、云终端、服务器及多品类的物联网计算平台。产品应用覆盖 20多个省111、市自治区、国家电网、南方电网,五大国有银行、多家股份制银行、城商行、农信和证券保险机构,在金融信创领域桌面 PC 市占率达 8成。图 29:兆芯芯片产品应用图谱 数据来源:兆芯微信公众号,东方证券研究所 行业解决方案行业解决方案遍布多领域,助力应用创新与数字化升级遍布多领域,助力应用创新与数字化升级。在政务、金融、电信、能源等行业领域,兆芯平台 PC 及物联网计算平台的产业化应用也取得了持续性突破,正在以优越、可靠的品质和使用体验,为用户业务的有序开展与数字化创新提供保障和支撑。2022 年,兆芯还联合统信软件与麒麟软件两大国产基础软件供应商,围绕数字办公、安全防护、云服务、基础通用、智慧校园112、、工控安全等方向,面向多元行业领域,提供一系列完整的国产化应用解决方案,进一步为政企及行业的应用创新和数字化转型升级创造发展空间。表 18:兆芯行业拓展成果 政务政务 广泛服务于全国 30 多个省、自治区及直辖市的政务部门;深度支撑 40 多家部委办公及业务应用;实现法治信息化建设项目垂直领域桌面产品全应用;入驻全国 30 多家省级电商平台和 200 多家地市级电商平台;金融金融 基于兆芯的桌面终端在金融信创市场占有率达 80%,被广泛应用于银行、保险、证券等金融机构,支撑超过 200 家用户单位的日常办公、柜面业务等有序开展,得到金融行业用户的广泛青睐;基于兆芯的金融机具类产品是目前主要的信113、创路线之一,在超过 100 家的金融机构中保障行业安全;电信电信 以绝对优势的份额落地国内大型运营商 11 家下属单位全年桌面办公产品采购项目;成功入围国内大型运营商 2022-2023 年终端集中采购项目;能源能源 电力行业信创终端产品整体市场占有率位列前茅;成功应用于石油行业云桌面项目,并入围中国石化信创终端设备框架协议采购;基于兆芯的嵌入式产品已经被应用于 4 大类电力核心控制系统,在超过 1000 个核心节点中大量使用;税务税务 2021 年、2022 年,连续 2 年国税集采领域兆芯平台信创整机市场占有率第一;教育教育 借助处理器和终端产品的性能以及生态优势,基于兆芯 CPU的信创整114、机及嵌入式产品已在全国 17 个省市、100 余所学校实现应用落地;基于兆芯的 3 类信创电教室核心产品,已经落地有超过 100 家教室,交通交通 基于兆芯的信创整机在轨道交通、民航等领域均取得了实质性的突破;基于兆芯的嵌入式产品已经被公路、铁路等客户列为主流信创路线之一,4 个案例落地,保障交通安全;医疗医疗 率先牵头在近 20 家医疗单位开展基于兆芯 CPU 的信创整机适配及部署工作;基于兆芯的 4 类嵌入式计算产品已在 6 家医院成功应用;数据来源:兆芯微信公众号,东方证券研究所 共创应用生态,共建开源社区。共创应用生态,共建开源社区。2022 年,兆芯通过主动适配以及与统信软件、麒麟软115、件建立联合实验室的三方认证方式,共计完成 23,000 余份生态兼容适配工作,覆盖基础软件、应用软件、应用系统、云平台、硬件外设、网络安全、开发框架等类型,包含云桌面/云平台、网络安全、人工智能、大数据、OA 办公、区块链等应用,持续助推信创生态的完善和繁荣。兆芯还积极助推开源社区发展,先后参与 openKylin、OpenKunlun、Deepin、OpenCloudOS 等开源社区共建,通过自主创新、兼容主流的发展路线,利用兆芯处理器自主定义、设计和演进方面的创新能力,以及产品性能、兼容性等方面优势,积极深化社区合作,推动各类产品应用的适配和技术创新,助力社区繁荣,服务产业发展。6.4 申116、威:以自研指令集保障关键领域 成都申威科技有限责任公司成立于 2016 年 11 月 25 日,公司以“自主创新”“安全可控”为研发首要,成立至今相继推出了一系列基于申威处理器的可控、可信并具有自主知识产权的产品。2003 年,在我国超算芯片受制于人的情况下,为解决在超算和国防、信息安全无“芯”可用的困境,具有军工背景的总参谋部第五十六研究所(无锡江南计算技术研究所)于2003年开始着手设计中国人自己的高性能芯片,申威由此应运而生。依靠依靠 Alpha 指令集起家,自研指令集起家,自研 SW64 指令集指令集构建基础生态构建基础生态。指令集架构上,申威的 CPU 属于Alpha指令集阵营,技术117、来源于美国DEC公司的 Alpha21164。Alpha架构被经转手、收购之后,如今指令集和微结构都已经不再更新,技术专利大多过期或临近过期。而申威是目前 Alpha 阵营中仅存的硕果,拥有自主扩展指令和发展路线的自主权。申威在 Alpha21164 基础上开发出自己的扩展指令、神威睿智编译器以及基于 Linux的神威睿思操作系统。而后申威推出了 100%自研的SW64 指令集,放弃了 Alpha 指令集。CPU 产品 2003 年第一代申威处理器完全兼容 ALPHA 指 令,所有功能实现均独立完成。在第二代申威处理器研发过程中,已经不再参考、兼容ALPHA相关指令系统,根据应用需要,自主设计118、实现指令系统,同时基于此构建了申威自主基础软件生态。SW64 完全自主,显著降低技术与完全自主,显著降低技术与 IP 依赖性。依赖性。知识产权评估权威机构工业和信息化部软件与集成电路促进中心(CSIP)对申威指令系统的评估结论是:“申威指令系统是一种与之前常见指令系统(ALPHA、MIPS、ARM、X86、POWER 等指令集)不同的自主指令系统。”申威架构有别于引进 CPU架构,是完全自主的架构,知识产权和自主研发能力不受限制。申威可自主发展,不会有被断供、制裁或停止授权的风险,可为关键领域提供长远的、可控的供应链和技术支撑。如今国产系统基本都接入了 SW64 指令集,如麒麟操作系统信操作系119、统,欧拉操作系统。图 30:申威 26010 图 31:申威 CPU 基本特征 数据来源:申威官网,东方证券研究所 数据来源:铁君微信公众号,东方证券研究所 申威申威是是国内自主设计、拥有完全自主处理器架构国内自主设计、拥有完全自主处理器架构的芯片的芯片。作为目前唯一国内自主设计、拥有完全自主的处理器架构,申威真正实现了全流程安全可控的国产处理器。申威处理器具有高计算性能、高集成度、高访存带宽、高 I/O 性能的特点。申威芯片覆盖高性能、服务器、桌面和嵌入式 CPU以及配套的外围 IO 桥片,形成“大、中、小”系列化、多品种国产自主芯片。申威处理器的全面推广应用打破了国外处理器知识产权的垄断和120、生产工艺的技术封锁,是保障国家信息安全的必要战略储备。表 19:申威产品特性及应用 产品产品 产品类型产品类型 发布发布时间时间 核心数核心数 内存容内存容量量 工作频率工作频率 工艺工艺 应用领域应用领域 SW26010 高性能 多线程 处理器 2014 260 32GB 1.5GHz 28nm 超算服务器等 SW111 高性能 单核 处理器/1 8GB 800MHz1.0GHz 40nm 军工、工控等 SW221 高性能 多核 处理器/2 32GB 2.0GHz 28nm 高密度计算型嵌入式领域 SW411 2017 2/4 16GB 1.01.6GHz 40nm 中低端服务器和高端桌面计121、算机 SW421 2017 4 64GB 2.0GHz 28nm 中低端服务器和高端桌面计算机 SW421M 2017 2/4 32GB 2.0GHz 28nm 中低端桌面计算机 SW1621 2017 16 256GB 2.0GHz 28nm 高性能计算和中高端服务器 数据来源:申威官网,东方证券研究所 申威申威 26010 实现量产并在超算领域得以应用实现量产并在超算领域得以应用。申威 26010 处理器解决了 260 个核心构成 SoC 芯片带来的各种挑战,具有接近工艺极限的 Die 面积。整个处理器支持乱序执行,频率 1.45GHz,包括 4 个 MPE(Management Proc122、essing Element)管理单元、4 个 CPE(Computing Processing Element)计算单元及 4 个 MC 内存控制器单元组成,其中 CPE 单元又由 8x8 阵列的64 核心组成,所以总计是 260 个核心(4x64+4=260)。申威 26010 实现了量产,并在 2016 年部署的“神威 太湖之光”超级计算机系统中应用。“神威 太湖之光”包含4万多颗“申威26010”芯片,连续四次在世界超级计算机 TOP500 榜单中排名第一,并荣获多项科技与计算领域顶级荣誉。“神威太湖之光”是中国超级计算应用领域近年来的重大突破。图 32:“神威太湖之光”外观 表 20123、:“神威太湖之光”性能及参数 测试性能测试性能 93.015PFLOPS 系统峰值系统峰值 125.436PFLOPS 主要参数主要参数 40 机柜/160 超级节点/40960 个计算节点 40960 颗 SW26010260C1.45GHzCPU 单节点 32GB 内存,全系统 1.31PB 内存 自主高速网络 国产申威睿智操作系统(RaiseOS)2.0.5 整机功耗 15371MW 数据来源:中存储网,东方证券研究所 数据来源:DeepTech 深科技微信公众号,东方证券研究所 信息披露信息披露 依据发布证券研究报告暂行规定以下条款:依据发布证券研究报告暂行规定以下条款:发布对具体股票作出明确估值和投资评级的证券研究报告时,公司持有该股票达到相关上市公司已发行股份1%以上的,应当在证券研究报告中向客户披露本公司持有该股票的情况,就本证券研究报告中涉及符合上述条件的股票,向客户披露本公司持有该股票的情况如下:就本证券研究报告中涉及符合上述条件的股票,向客户披露本公司持有该股票的情况如下:截止本报告发布之日,资产管理、私募业务合计持有长电科技(600584)占发行量 1%以上 提请客户在阅读和使用本研究报告时充分考虑以上披露信息。