通信行业深度：“合成数据+强化学习”大模型进化的新范式-240919（18页）.pdf

定制报告-个性化定制-按需专项定制研究报告

行业报告、薪酬报告

联系：400-6363-638

《通信行业深度：“合成数据+强化学习”大模型进化的新范式-240919（18页）.pdf》由会员分享，可在线阅读，更多相关《通信行业深度：“合成数据+强化学习”大模型进化的新范式-240919（18页）.pdf（18页珍藏版）》请在本站上搜索。 1、请仔细阅读本报告末页声明请仔细阅读本报告末页声明证券研究报告证券研究报告|行业深度行业深度2 0 2 4 年 0 9月1 9日通信通信“合成数据合成数据+强化学习强化学习”:大模型进化的新范式大模型进化的新范式当地时间9月12日，OpenA I 发布新模型系列o1(代号“草莓”),该模型的特点主要是在给出推理结果前，花更多时间“思考”,产生较长内部思维链，在解决科学、数学、代码等类问题的表现更好。01-preview每每百万 token输入 1 5 美元，每百万输出 token60美元，o1-mini相对便宜，每百万token输入3美元，每百万token输出12美元。目前C2、hatGPT Plus和TeamTeam 用户可以在模型选取器中手动选择，o1-previewo1-preview每周限制3030 条消息，01-mini01-mini每周限制5050 条消息。o1 亮点一：或为 OpenAI新模型“Orin”生成合成数据。据 TheInformation,Information,o1 或为OpenAIOpenAI 新模型“OrinOrin”生成合成数据。无独有偶，我们注意到，OpenAI创始团队出走创办的AnthropicOpenAI的有力竞争对手，2024 年6 月发布了大模型Claude 3.5 Sonnet,该模型使用了合成数据，在多个测试中的表现优于3、GPT40GPT40。我们发现，在人类生成的数据或将耗尽之际，合成数据还具备“性价比可能更高”“更完整、全面”“隐私性更好”等优点，尽管存在可能“可能为模型引入噪声”“泛化能力不足”等问题，但能通过“诱导幻觉”“加入数据评估机制”“在训练过程中积累数据”等方式尝试解决。o1 亮点二：亮点二：“合成数据合成数据+强化学习强化学习”,o1 或确认大模型进化新范式。或确认大模型进化新范式。市场认为，ScalingLaw(指大模型随着参数的增大而增强能力)只存在于大模型训练阶段。但我们发现，根据OpenAIOpenAI 工工程师JasonJasonWei,oWei,o1 使用了强化学习(RL(RL)做4、思维链(Chain(Chain ofof Thought)Thought)来来训练模型；思维链可以使模型在推理阶段实现能力增强，即Scaling Law可以不止出现在训练阶段，也出现在推理阶段。这里我们所说的强化学习(RL),指模型A生成推理结果后，由模型 B给推理结果打分，帮助模型 A 不断调整参数、迭代、进化，分成RLAIF(基于AI 反馈的强化学习)和RLHF(基于人类反馈的强化学习)多种，后者曾因被用于ChatGPTChatGPT 而名声大噪。我们认为，o1 系列的惊艳面世，或许不仅是确认了合成数据的重要性，还意味着大模型对强化学习的倚重，而在强化学习中，我们注意到，RLAIFRLAI5、F(基于AIAI反馈的强化学习)逐渐成为MetaMeta LLama3LLama3、英伟达 NemoNemotron-4340Btron-4340B、微软Orca-2等热门大模型的选择，相较于于 RLHF(基于人类反馈的强化学习),需要的人类标注较少，适合代码、数学等有客观评价标准的领域。我们推测，RLAIFRLAIF 或许也是0101 在代码、数学等问题上表现更好的原因。投资建议：投资建议：根据OpenAI,o1OpenAI,o1模型训练和测试阶段在美国奥林匹克数学竞赛(AIME)的表现随着训练和测试计算量的增长而变得更好，这表明01“推理时，在响应用户前，思考更多”有助于让 01 表现更好6、，这正是推理ScalingLaw。我们认为，这有助于打破投资界过往的担忧，即“推理需要的算力比训练少，当大模型的进化转向推理，算力板块承压”;相反，推理ScalingLaw仍将利好算力板块。建议关注：1)光模块产业链：中际旭创、新易盛、天孚通信、太辰光、光迅科技、华工科技、腾景科技等；2)液冷服务商：英维克；3)PCB服务商：沪电股份等；4)AIDC:润泽科技等。风险提示风险提示：大模型算法进展不及预期，大模型应用落地不及预期，全球宏观经济下行风险。行行业业走走势势一通信沪深30010%2%-6%-14%-22%-30%2023-092024-012024-052024-09作作者7、者分析师分析师宋嘉吉宋嘉吉执业证书编号：S0680519010002邮箱：分析师分析师孙爽孙爽执业证书编号：S0680521050001邮箱：s u n s h u a n g g sz q.c o m相关研究相关研究1、通信：01 新模型对算力需求几何 2024-09-162、通信：26年AI算力应用初窥 2024-09-083、通信：市场对AI算力担心什么?2024-09-01增持增持(维持维持)P.2请仔细阅读本报告末请仔细阅读本报告末页声明页声明20242024年年0909月月1919日日内容目录内容目录1 Open AI 新模型开出高额订阅费，多领域实现新飞跃.31.1 OpenA8、I发布新模型 o1系列，逻辑推理能力卓越.31.2o1或为 OpenAI 新模型猎户座(Orion)生成合成数据.42 合成数据面面观：定义、优点、不足与解决方案合成数据面面观：定义、优点、不足与解决方案.62.1 合成数据的定义.62.2 合成数据的优点.62.2.1 相较于人工生成的数据，性价比或更高相较于人工生成的数据，性价比或更高.62.2.2 更完整、全面更完整、全面.62.2.3 隐私性更好隐私性更好.62.3 合成数据的不足与解决方案.72.3.1 不足不足.72.3.2 解决方案一：诱导幻觉解决方案一：诱导幻觉.72.3.3 解决方案二：加入数据评估机制解决方案二：加入数据评估9、机制.82.3.4解决方案三：在训练过程中积累数据解决方案三：在训练过程中积累数据.93“合成数据合成数据+强化学习强化学习”,o1 1或确认大模或确认大模型进化新范式型进化新范式.113.1 Meta Llama 3:3:使用合成数据和使用合成数据和RLAIF训练训练.113.2 英伟达英伟达Nemotron-4 340B:合成数据神器和合成数据神器和RLAIF,表现卓越表现卓越.133.3 微软微软 Orca-3:-3:智能体框架智能体框架 AgentInstruct,生成式教学生成式教学.144 投资建议：投资建议：OpenAI 揭示的推理揭示的推理 ScalingLaw 利好算力板块利10、好算力板块.16图表目录图表目录图表图表1:1:OpenAIo1 1在不同领域的得分情况在不同领域的得分情况.3图表图表2:2:OpenAIo 1 1相较相较gpt 4040的多维度性能提升的多维度性能提升.3图表图表3:3:OpenAIo 1-preview的的 API定定价价.4图表图表4:4:OpenAIo 1-mini的的 API 定定价价.4图表图表5:5:Claude 3.5 Sonnet在多项测试中的表现优于在多项测试中的表现优于GPT4o.5图表6:“诱导-对比解码”策略.8图表图表7:7:ICD 策略应用前后不同模型的策略应用前后不同模型的 TruthfulQA变变化化11、.8图表图表8:8:Nemotron-4 340B模型应用路径模型应用路径.9图表9:数据在模型拟合送代替换.9图表图表10:10:数据在模型拟合迭代积累数据在模型拟合迭代积累.9图表图表11:11:数据在模型拟合迭代替换的损失数据在模型拟合迭代替换的损失变化变化.10图表图表12:12:数据在模型拟合送代积累的损失变化数据在模型拟合送代积累的损失变化.10图表13:自我奖励语言模型训练原理.12图表图表14:14:Lama 3.1 405B与其他模型的人工测评结果与其他模型的人工测评结果.12图表图表15:15:Lama 3.1 405B与与Nemotron-4 340B、GPT-4-4等模12、型各任务表现对比等模型各任务表现对比.13图表图表16:16:Nemotron-4 340B与与Lama-3-70 b等模型在各任务表现对比等模型在各任务表现对比.14图表图表17:17:Nemotron-4 340BInstruct与其他知名模型在硬基准测试中的表现对比与其他知名模型在硬基准测试中的表现对比.14图表图表18:18:Orca-3-3和其他模型在各任务中表现对比和其他模型在各任务中表现对比.15图表图表19:19:阅读理解任务中阅读理解任务中Orca-3-3和其他模型的表现和其他模型的表现对比对比.15图表图表 20:20:数学任务中数学任务中 Orca-3-3和其他模型的表现13、对比和其他模型的表现对比.15图表图表21:21:o 1 1模型训练和测试阶段在美国奥林匹克数学竞赛模型训练和测试阶段在美国奥林匹克数学竞赛(AIME)的表现随着训练和测试计算的表现随着训练和测试计算量的增长而变得量的增长而变得更好.16图表图表22:22:英伟达科学家英伟达科学家JimFan 图示图示0101推理推理 ScalingLaw.172 2 0 0 2 2 4 4 年年 0 0 9 9 月月 1 1 9 9 日日1 Open AI新模型开出高额订阅费，多领域实现新飞跃新模型开出高额订阅费，多领域实现新飞跃1.11.1OpenAIOpenAI发布新模型发布新模型o1o1 系列，逻辑推14、理能力卓越系列，逻辑推理能力卓越当地时间9月12日，OpenAI 发布新模型系列o1(代号“草莓”,以下除非注明，统称为“01”),该模型的特点主要是，在给出推理结果前，花更多时间“思考”,产生较长内部思维链，在解决科学、数学、代码等类问题上的表现比之前的模型更好。OpenAI o1的理科能力强。的理科能力强。0 01在编程题库 Codeforces 得到 89 分，在美国数学竞赛(AIME)处于全美学生的前500名，在物理、生物和化学题库GPQA的表现上超过了人类博士水平，其强大的逻辑能力使01相较于gpt40有着多维度的性能提升。图表1:OpenAIo1在不同领域的得分情况PhD-Leve15、lScienceQuestions(GPQADiamond10078.38069.756.14020o-o1previewexperthuman78.0gpt4oo160资料来源：OpenAI,国盛证券研究所图表 2:O p e n A Io 1 相较 g p t 4 0 的多维度性能提升gpt4oMLBenchmarks9487329 2.878.192320800opassl accuacyExam58081098195.683.3APChemstrySATEBRW97o204060B01oopasslaccuurPhysicsBiologyGlobalFactsColl16、egeChemistyCollege MathemProlessionalLawPubicRelationsAPEnglishLangAPPhysies2APEnglshuLSATAPCalculusLeve/ScieooeOrection(GPQA Diam ond)64.7MATHMtMstaestin)MMMU(ma069260800020406080100ot improvementMMLegorie890944Formal Logie78.4781ChemistyEconometrMMLUPhD-L87.140285000资料来源：OpenAI,国盛证券研究所OpenAI o1的的A17、PI定价昂贵，且使用次数限制较大。定价昂贵，且使用次数限制较大。应用程序编程接口(API,ApplicationProgramming Interface)的价格上，01-preview每百万token输入15美元，每百万输出token60美元，o1-mini相对便宜，每百万token输入3美元，每百万token输出12美元。目前ChatGPTPlus和Team用户可以在模型选取器中手动选择，o1-preview每周限制30条消息，o1-mini每周限制50条消息。对于开发者来说，只对已经付过1000美刀的等级5开发者开放，每分钟限制20次。P.3请请仔仔细细阅阅读读本本报报告告末末页页声声18、明明previewpreviewCompetitionCodeCompetition Math(AIME 2024)2 2 0 0 2 2 4 4 年年 0 0 9 9 月月 1 1 9 9 日日图表3:OpenAIo1-preview 的 API定价图表4:OpenATo1-mini的API定价OpenAlo-previewol-previewisournewreasoningmodelforcomplextasksthatrequirebroadgeneralknowledge.Themodelhas128KcontextandanOctober2023knowledgecutoff.Le19、arn aboutol-prevlewOpenAlo-miniol-miniisafast,cost-efficientreasoningmodeltailoredtocoding,math,and scienceusecases.Themodelhas128Kcontextand anOctober2023knowledge cutoftLearn about ol-mini)Model0l-prevewol-presiew-2024-00-12ModsPicingo-mnl51500/Minoutto*in56000/Moutputot-mn-2024-00-2st500/tMinout520、6000/MoutputPicing1300/tMinputtokens$200/Moutputtokens4300/tMinputtokens8200/Moutputtokens资料来源：OpenAI,国盛证券研究所资料来源：OpenAI,国盛证券研究所1.2o1或或为为OpenAI新模型猎户座新模型猎户座(Orion)生成合成数据生成合成数据The Information认为，草莓就是之前的Q-Star,曾经被警告“AI重大新突破或危及人类”的神秘模型，其合成数据的方法能够大幅提升大语言模型(LLM)的智能推理能力，尤其体现在数学解题、解字谜、代码生成等复杂推理任务。据TheInform21、ation,OpenAI在推出新模型o1 后，将推出模型“猎户座”(Orion),而OpenAI o1,则将在其中扮演关键角色负责生成猎户座所需的数据，通过高质量的合成数据来降低模型错误率。智能体创企Minion AI首席执行官 Alex Graveley认为，使用OpenAI草莓模型生成更高质量的训练数据可以帮助 OpenAIOpenAI 减少其模型产生的错误数量，即所谓的幻觉。该模型之所以能够做到这一点，是因为“训练数据中的歧义较少，所以它猜测的次数较少”。无独有偶，我们注意到，OpenAIOpenAI 创始团队出走创办的AnthropicOpenAI的有力竞争对手，2024年6月发布了大22、模型Claude3.5Sonnet,该模型使用了合成数据，在多个测试中的表现优于GPT40。P.4请请仔仔细细阅阅读读本本报报告告末末页页声声明明tokenstokonstokens2 2 0 0 2 2 4 4 年年 0 0 9 9 月月 1 1 9 9 日日图表5:Claude 3.5 Sonnet在多项测试中的表现优于GPT40GPT40ClaudeClaude3.53.5SonnetSonnetClaudeClaude3 3OpusOpusGPT-4oGPT-4oGeminiGemini 1.51.5ProProLlama-400bLlama-400b(early(earlysnaps23、hot)snapshot)Graduate levelreasoningGPQA,Diamond59.4%*0.chot Co50.4%50.4%0-shot CoT53.6%53.6%0-shot CoT一一Undergraduateevel knowledgeMMLU88.7%*88.7%*5-shot88.3%88.3%0-shotCoT86.8%86.8%5-shot85.7%85.7%0-shot CoT一88.7%88.7%0-shot CoT85.9%85.9%5-shot86.1%86.1%5-shotCode92.0%92.0%84.9%84.9%90.2%90.2%84.124、%84.1%84.1%84.1%HnaA0-shot0-shot0-shot0-shot0-shotMultilingualmath91.6%91.6%90.7%90.7%90.5%90.5%87.5%87.5%MGSM0-shotCoT0-shot CoT0-shotCoT8-shot一ReReasoningasoning overover textext tppOP.F1soor87.187.13-shot83.183.13-shot83.483.43-shot74.974.9Variable shot83.583.53-shoPre-trained modeMixedevaluation25、sMixedevaluationsBIG-Bench-Hard93.1%93.1%3-shotCoT86.8%86.8%3-shot CoT一一89.2%89.2%3-shot CoT85.3%85.3%3-shot CoTPre-trained modeMathMathproblem-solvingproblem-solvingMATH71.1%71.1%60.1%60.1%76.6%76.6%67.7%67.7%57.8%57.8%0-shotCoT0-shotCoT0-shot CoT4-shot4-shot CoTGradeGrade schoolschool mathmath96.426、%96.4%95.0%95.0%一90.8%90.8%94.1%94.1%GSM8K0-shot CoT0-shotCoT11-shot8-shot CoT*Claude 3.5 Sonnet scores 67.2%on 5-shot CoT GPQA with maj32*Claude 3.5 Sonnet scores 90.4%on MMLU with 5-shot CoT prompting资料来源：TechCrunch,国盛证券研究所P.5请仔细阅读本报告末页声明请仔细阅读本报告末页声明P.6请仔细阅读本报告末页声明请仔细阅读本报告末页声明2 2 0 0 2 2 4 4 年年 0 27、0 9 9 月月 1 1 9 9 日日2 2合成数据面面观：定义、优点、不足与解决方案合成数据面面观：定义、优点、不足与解决方案2 2.1 1合成数据的定义合成数据的定义2022年发表在arXiv上的一项研究表明：如果大语言模型(LLM)保持现有训练速度，大约会在20262032 年间耗尽公开的、人类生成的文本数据。面对当前的“数据荒”局面，合成数据或将成为大模型的未来，也是业界公认的解决之法。合成数据(Synthetic Data)是一种模仿真实世界数据的非人工创建的数据。它是由基于生成式人工智能技术的计算算法和模拟创建而成。合成数据集具有与其所基于的实际数据相同的数学特性，但不包含相同信息28、。对于语言模型来说，虽然要生成高质量的合成文本存在一定难度，但通过优化现有数据、从多模态数据中学习等策略，或许能够大幅降低对新数据的需求量。合成数据的使用率逐渐上升，与传统数据相比优势明显。英伟达科学家 Jim Fan曾发文表示，合成数据将提供下一万亿个高质量的训练token;Cohere 首席执行官AidenGomez表示，合成数据可以适用于很多训练场景，只是目前尚未全面推广。与传统数据相比，合成数据具有明显的优势。2 2.2.2合成数据的优点合成数据的优点2.2.12.2.1相较于人工生成的数据，性价比或更高相较于人工生成的数据，性价比或更高数据的成本来自于采集和标注，在这两部分，合成数据29、都有显著的优势。相对于真实数据低效的收集方式，合成数据可以定向生成场景，让每一个字节的数据都是有价值的。不需要大量的数据采集团队，也不需要大规模的数据回传系统和数据筛选系统，合成数据从生产开始就根据模型训练的需求出发，大部分产出都可以直接使用，也就降低了数据采集成本。在标注成本方面，合成数据也有较大优势。第一批专门提供合成数据服务的公司之一AI.Reverie的联合创始人 PaulWalborsky估计，在自动驾驶图像标注上，一张图像的标记成本是6美元，而合成数据的成本只有6美分。2.2.22.2.2更完整、全面更完整、全面一些特定情况或数据在真实世界中难以观测，如罕见病或极端天气等。合成数据30、可以设计比真实数据集更广泛的情况，对Corner Case进行模拟，提升训练数据集的全面性和多样性，确保在处理边缘案例时也有良好性能，提升模型泛化能力。2.2.32.2.3隐私性更好隐私性更好根据行业和数据类型的不同，企业在处理敏感数据时可能会面临数据安全挑战，引起对于隐私问题的担忧。例如在医疗行业，患者数据通常包括个人健康信息。而合成数据可以减轻对这类问题的担忧，因为它能够在不暴露私有或敏感数据的情况下显示相同的统计相关信息。以医学研究创建的合成数据为例，它保持与原始数据集相同的生物学特征和遗传标记百分比，但所有姓名、地址和其他个人患者信息都是虚假的。Walborsky表示：“合成数据已成为31、处理隐私问题的关键。它通过确保数据能够代表真实世界的多样性来减少偏见。”P.7请请仔仔细细阅阅读读本本报报告告末末页页声声明明2 0 2 4 年 0 9 月 1 9 日2.32.3合成数据的不足与解决方案合成数据的不足与解决方案2.3.12.3.1不足不足使用合成数据可以成为解决训练数据稀缺以及衍生而来的高成本问题的有效手段，为什么大量AI厂商还是倾向于挖掘或购买人类生成的数据呢?合成数据可能会被引入噪声。合成数据可能会被引入噪声。在采用精心设计的prompt(提示指令)和有监督训练的前提下，大语言模型固有的偏见(大模型在处理数据时表现出的某种偏好或倾向性)和幻觉(大模型产生的响应不准确或捏32、造信息)等问题仍可能会给数据集引入噪声。而在错误的、有幻觉的或有偏见的合成数据基础上训练的大语言模型，会无法泛化到现实世界场景。建立在合成数据基础上的大语言模型需要避免被机器学习“污染”,而训练数据中合成数据的占比越大，自然语言理解能力就越不容易提升。合成数据的泛化能力不足，存在边界。合成数据的泛化能力不足，存在边界。斯坦福教授Percy Liang指出，合成数据缺乏珍贵的“人性”,以至于基于合成数据训练的大模型并不足以达到通用人工智能(ArtificialGeneralIntelligence,AGI)。更为重要的是，合成数据可以用来验证或扩展人类已经知道的领域，却无法揭示初始数据集中不存在33、的领域，它的边界就是初始数据集的边界。合成数据需要人为清洗和格式化，此过程成本不明确。合成数据需要人为清洗和格式化，此过程成本不明确。合成数据并不可直接使用，研究人员需将生成的数据进行清洗和格式化，去除重复内容、修正格式错误，以确保它们符合训练的需要。Meta 开发了一系列数据过滤管道来优化 Lama2生成的合成数据以确保用于训练Llama 3的数据质量。这些管道包括使用启发式过滤器、NSFW过滤器、语义重复数据删除方法和文本分类器来预测数据质量。但是这一过程到底花费了多少人力多少时间并未公布。因此，尽管合成数据确实会比真实数据更便宜，但剔除不合格的合成数据到底需要花费多少成本还是未知数。合成34、数据多次迭代后会使大模型崩溃。根据斯坦福大学和麻省理工发布的一项研究，当大模型在自己生成的输出上进行训练时，这种循环会导致一种被称为模型崩溃的现象，在这种现象下，随着每次模型数据的反馈迭代，大模型的性能逐渐下降，直到拟合的模型变得无用。2.3.22.3.2解决方案一解决方案一：诱导幻觉诱导幻觉大模型的幻觉属性可能会对合成数据引入噪声。苏州大学计算机科学与技术学院人工智能研究所与腾讯人工智能实验室在论文通过诱导幻觉缓解大型语言模型的幻觉中提出了一种简单的“诱导-对比解码”(Induce-then-Contrast Decoding,ICD)策略可以有效减轻大模型的幻觉。“诱导-对比解码”策略具体35、来说，就是通过诱导原始LLM产生幻觉，构建一个带有幻觉的对比模型(恶意LLM)。然后，对比原始LLMLLM 和恶意 LLMLLM 的输出，惩罚恶意模型中出现的幻觉，从而增强原始LLM生成内容的真实性。P.8请请仔仔细细阅阅读读本本报报告告末末页页声声明明UserInput2 2 0 0 2 2 4 4 年年 0 0 9 9 月月 1 1 9 9 日日图表图表6:6:“诱导诱导-对比解码对比解码”策略策略HowmanytimeshansDerickOriginal LLMEvil LLMContrastTwg _One_Three资料来源：苏州大学计算机科学与技术学院人工智能研究所，腾讯人工智能36、实验室，国盛证券研究所文章中提到的“诱导-对比解码”方法可以有效地提高不同模型大小和家族的 LLMs(大语言模型)的真实性。例如，当配备ICD时，Llama2-7B-Chat和Mistral-7B-Instruct分别在TruthfulQA(一种基于歧视的幻觉评估基准)上实现与ChatGPT和GPT4相当的性能。图表7:ICD 策略应用前后不同模型的TruthfulQA变化TruthfulQAMC1资料来源：苏州大学计算机科学与技术学院人工智能研究所，腾讯人工智能实验室，国盛证券研究所2.3.32.3.3解决方案二：加入数据评估机制解决方案二：加入数据评估机制Nvidia发布的模型Nemotr37、on-4340B 是针对 NVIDIANeMo和 NVIDIA TensorRT-LLM优化的模型系列，包括尖端的指导和奖励模型，以及用于生成式AIAI训练的数据集。开发人员可以使用Nemotron-4340B 奖励模型来筛选高质量的响应，以此提高AI生成数据的质量。Nemotron-4340B根据五个属性对回答进行评分：有用性、正确性、连贯性、复杂性和详细性。它目前在HuggingFaceRewardBench排行榜上排名第一，该排行榜由AI2AI2 创建，用于评估奖励模型的能力、安全性和缺陷。此外研究人员还可以结合他们的专有数据和包含的H HelpSteer2elpSteer2数据集来定制38、Nemotron-4340B4340BBaseBase模型，创建自己的指令或奖励模型。P.9请仔细阅读本报告末页声明请仔细阅读本报告末页声明2 0 2 4 年 0 9 月 1 9 日图图表表8 8:Nemotron-4340B模型应用路径DnotSoecfNemotron-4-340BnstructSyntheticResponseDataSynthetic DatasetFilter Synthetic Response DataNemotron-4-340BRewardResponseScoresSyntheticResponseDataDeveloper资料来源：NVDIA官网，国盛证券39、研究所2.3.42.3.4解决方案三：在训练过程中积累数据解决方案三：在训练过程中积累数据斯坦福大学和麻省理工的一项研究表明，在原始真实数据旁边积累连续几代的合成数据可以避免模型崩溃，并且此结论适用于各种大小模型、体系结构和超参数(机器学习中事先给定的，用来控制学习过程的参数)。图表9:数据在模型拟合送代替换图表10:数据在模型拟合送代积累ReplaceDataAccumulateDataModelModelData 3ModelData 2Data 1资料来源：IsModelCollapseInevitable?BreakingtheCurseofRecursionbyAccumulatin40、gRealandSyntheticData(MatthiasGerstgrasser,RylanSchaeffer,ApratimDey,RafaelRafailov,DhruvPai),国盛证券研究所资料来源：IsModelCollapseInevitable?BreakingtheCurseofRecursionbyAccumulatingRealandSyntheticData(MatthiasGerstgrasser,RylanSchaeffer,ApratimDey,RafaelRafailov,DhruvPai),国盛证券研究所随着模型拟合迭代次数的增加，如果数据被替换，测试误差会41、逐渐增大；如果数据累积，测试误差波动较小，并且有一个有限的上界，波动幅度与迭代次数无关，这意味着模型不再发生崩溃。ModelModelData 3ModelData 2Data 1Data 2Data 1Data 1P.10请仔细阅读本报告末页声明请仔细阅读本报告末页声明2 2 0 0 2 2 4 4 年年 0 0 9 9 月月 1 1 9 9 日日图表11:数据在模型拟合送代替换的损失变化图表12:数据在模型拟合送代积累的损失变化Model-Fitting IterationModel-Fitting Iteration资料来源：IsModel CollapseInevitable?Brea42、kingtheCurseofRecursion byAccumulating Real and Synthetic Data(MatthiasGerstgrasser,Rylan Schaeffer,Apratim Dey,Rafae Rafailov,DhruvPai),国盛证券研究所资料来源：Is Model Collapse Inevitable?Breaking the Curse ofRecursion byAccumulating Real and Synthetic Data(MatthiasGerstgrasser,Rylan Schaeffer,Apratim Dey,Raf43、ael Rafailov,DhruvPai),国盛证券研究所P.11请仔细阅读本报告末页声明请仔细阅读本报告末页声明2 2 0 0 2 2 4 4 年年 0 0 9 9 月月 1 1 9 9 日日3 3“合成数据合成数据+强化学习强化学习”,o1o1 或确认大模型进化新范式或确认大模型进化新范式根据OpenAI 工程师Jason Wei,o1使用了强化学习(RL)做思维链(Chain of Thought)来训练模型；思维链可以使模型在推理阶段实现能力增强，即Scaling Law(指大模型随着参数的增大而增强能力)可以不止出现在训练阶段。这里我们所说的强化学习(RL),指模型A生成推理结果后44、，由模型B给推理结果打分，帮助模型A不断调整参数、迭代、进化，分成RLA IF(基于A I反馈的强化学习)和RLHF(基于人类反馈的强化学习)多种，后者曾因被用于ChatGPT而名声大噪。我们认为，01系列的惊艳面世，或许不仅是确认了合成数据的重要性，还意味着大模型对强化学习的倚重，而在强化学习中，我们注意到，RLA IF(基于A I反馈的强化学习)逐渐成为当前大模型的热门选择，相较于RLHF(基于人类反馈的强化学习),需要的人类标注较少，适合代码、数学等有客观评价标准的领域。我们注意到除了上文提到的Claude 3.5 Sonnet,已经有多个领先大模型不仅使用了合成数据，还将其进一步用于R45、LAIF(基于AI反馈的强化学习),并取得了亮眼表现。我们推测，RLAIF或许也是01在代码、数学等问题上表现更好的原因。3.13.1 MetaMeta LlamaLlama 3:3:使用合成数据和使用合成数据和RLAIFRLAIF 训练训练7 月2424 日，Meta 发布了其最先进的开源大语言模型Llama 3.1系列，其中就包括首个“前沿级”开源模型Llama3.1405B。据介绍，Llama3.1405B具有强大的灵活性、控制性和最先进的功能，可与GPT-40、Claude3.5Sonnet等最优秀的闭源模型相媲美。Meta认为，最新一代的Llama将点燃新的应用和建模范式，包括生成合46、成数据以改进和训练更小的模型，以及模型提炼这是开源软件从未达到过的能力。Llama3.1 完全基于合成数据，使用自我奖励语言模型进行完全基于合成数据，使用自我奖励语言模型进行训练。训练。Meta的的AI研究员研究员Thomas Scialom博士称，Meta的Llama 3开源大模型在训练中并没有依赖任何人类编写的答案，而是完全基于Llama 2生成的合成数据。Meta将使用合成数据进行训练的大模型称为自我奖励语言模型(Self-Rewarding Lanquage Models),也就是大模型本身生成训练数据，并评估这些数据的质量，然后用这些数据来自己训练自己。自我奖励语言模型实际上就是所谓47、的“基于AIAI反馈的强化学习(RLAIF)”的应用，MetaMeta的具体操作是先基于少量人工标注数据预训练一个初始模型，然后再让初始模型基于问题生成多个候选回复，并使用吴恩达博士提出的LLM-as-a-Judge方式，让大语言模型对自己生成的回复打分，并根据打分形成新的训练数据，从而继续训练模型。该过程是迭代的，在每次迭代中模型的遵循指令能力和打分能力都会提升。P.12请仔细阅读本报告末页声明请仔细阅读本报告末页声明2 2 0 0 2 2 4 4 年年 0 0 9 9 月月 1 1 9 9 日日图表图表13:13:自我奖励语言模型训练原理自我奖励语言模型训练原理Self-Instructi48、oncreationInstruction following trainingGeneratednewprompts(seleax;.,Next iteration modelSeed model(lorp=1)MtGeneraterewardsPreferencepairsGenerateresponsesDPOtrainingMt+1xMtFigure 1:Self-RewardingLanguageModels.Ourself-alignmentmethodconsistsoftwosteps:(i)Self-Instructioncreation:newlycreatedprompt49、sareusedtogeneratecandidateresponsesfrommodelM,whichalsopredictsitsownrewardsviaLLM-as-a-judgeprompting.(ii)Instructionfollowingtraining.preferencepairsareselectedfromthegenerateddata,whichareusedfortrainingviaDPO,resultinginmodelMt+1.Thiswholeprocedurecanthenbeiteratedresultinginbothimprovedinstruc50、tionfollowingandrewardmodelingability.图1:自我奖励的语言模型。我们的自对齐方法包括两个步骤：(i)自指令创建：新创建的提示用于从模型生成候选响应Mt,它也通过LLM。(ii)训练后的教学：从生成的数据中选择偏好对，通过DPO用于训练，从而产生模型Mt+1.然后可以迭代整个过程，从而提高指令跟随和奖励建模能力。资料来源：arxiv,国盛证券研究所Llama3.1405B具有强大的操作性和先进的功能，可与具有强大的操作性和先进的功能，可与GPT-4o、Claude3.5Sonnet相媲美。相媲美。针对Llama 3.1系列模型，MetaMeta 评估了1551、0多个基准数据集的性能，这些数据集涵盖了多种语言。此外，他们还进行了广泛的人工评估，将 Llama3.1与其他竞争模型进行了比较。实验评估结果表明，Llama3.1405B在常识、可操作性、数学、工具使用和多语言翻译等一系列任务中，都能与GPT-4、GPT-40 和 Claude3.5Sonnet相媲美。在现实场景中，Llama3.1405B进行了与人工评估的比较，其总体表现优于GPT-40和Claude 3.5 Sonnet。升级后的Llama3.18B和 7 0B 模型，相比于同样参数大小的模型性能表现也更好，这些较小参数的模型支持相同的128KTokens上下文窗口、多语言、改进的推理和52、最先进的工具使用。以支持实现更高级应用。此外，Llama3.1的小型模型与参数量相近的模型相比也具有竞争力。图表14:Lama 3.1405B与其他模型的人工测评结果Llama3.1405B Human Evaluation WinTieLoss24.5%29.2%24.2%60%80%100%winrate资料来源：澎湃新闻，国盛证券研究所Llama3.1405BvsGPT-4-0125-PreviewLlama3.1405Bvs GPT-4oLlama3.1405BysClaude3.5 Sonnet40%23.3%24.9%52.2%50.8%51.7%19.1%0%20%P.13请请仔53、仔细细阅阅读读本本报报告告末末页页声声明明2 2 0 0 2 2 4 4 年年 0 0 9 9 月月 1 1 9 9 日日图表图表15:Lama 3.1405B与与Nemotron-4340B、GPT-4等模型各任务表现对比等模型各任务表现对比CateBenghmarkLlama 3.1NemotronNemotron 4 4405B340B340B InstructInstructGPT-4GpT-On nniClaude 3.5SonnetMMLU(o-chaMMLUPRO(5FEv88.678.785.47362.764.888.788.374.085.677.088.685.184.354、88.0anEvalt0-shotMBPP EvalPlus89.088.673.272.886.683.690.287.892.092.090.590.5SMAKohetCorMATH(0-shot,Col96.892.341.194.264.596.176.676.696.471.173.8ARC Challenge 10-ghetGPQA(0Ga96.994.696.441.496.796.753.653.696.751.159.459.4BFCLNexus88.586.586.588.388.350.350.380.556.190.290.258.745.7ZeroSCROLLS/Qu55、ALITYnfiniteBench/En.MCNIH/Multi-needle95.283.495.272.90.582.590.590.898.100.0100.0Multilingual MGSM91.685.990.591.6资料来源：涉湃新闻，国盛证券研究所3.23.2英伟达英伟达Nemotron-4340B:合成数据神器合成数据神器和和RLAIF,表现卓越表现卓越6月14日，英伟达宣布推出开源通用模型Nemotron-4340B。它包含一系列开放模型，为开发人员提供了一种免费、可扩展的方式来生成合成数据，从而帮助人们构建强大的LLM,可用于医疗健康、金融、制造、零售等所有行业的商业应56、用。该模型系列包括基础模型、指令模型和奖励模型，支持50多种自然语言和40 多种编程语言，训练数据高达9万亿个 token。Nemotron-4340B 不仅在常识推理、指令跟随和奖励模型方面表现出色，还通过生成高质量合成数据，降低了大模型训练成本。Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward,构建了一个高质量合成数据生成的完整流程，用于生成训练和改进 LLM 的合成数据。其中Instruct模型创建了多样化的合成数据，模仿了现实世界数据的特征，有助于提高数据质量，从而提高自定义LLM在各个领域的性能。Nemotron-4340B 在各项任务57、中表现出色，性能超越 Llama3。具体来说：Nemotron-4340B Base模型在常识推理任务，如ARC-Challenge、MMLU和BigBench Hard基准测试中，可以和 Llama-370B、Mixtral 8x22B和Qwen-272B 模型媲美。而Nemotron-4340BInstruct,在指令跟随和聊天能力方面也超越了相应的指令模型。Nemotron-4340B Reward 在 RewardBench 上实现了最高准确率，甚至超越了GPT-4o-0513 和Gemini 1.5 Pro-0514等专有模型。此外，Nemotron-4340B Instruct在A58、rena-Hard-Auto等硬基准测试中超越了Lama-3-70b,具备很强的竞争力。2 2 0 0 2 2 4 4 年年 0 0 9 9 月月 1 1 9 9 日日图表16:Nemotron-4340B与Llama-3-70b等模型在各任务表现对比Namoton-4340BUama2-708Motral8x22+0tuc8rdnudLama3.70den 2 728-4HnstuaNmoton-4-3408-AewardCohereMay2024-base-051(a)Nemotron-4-340B-Base(b)Nemotron-4-340B-Instruct(c)Nemotron-4-59、340B-Reward资料来源：英伟达，国盛证券研究所图表17:Nemotron-4340B Instruct与其他知名模型在硬基准测试中的表现对比Nemotron-4-340Nemotron-4-340B Lama-3Lama-3-70B-70BnstrucnstrucnstrudnstrudMistral-8x22BMistral-8x22Bnuct-10.1nuct-10.1Qwen-2-72BQwen-2-72BstructstructGPT-4GPT-4106-pre106-preMistralMistraluudeuuderenrenp p54.254.241.541.134.4360、6.430.948.38.80.04.9T-Bench0T-Bench0bo)bo)8.22.167.638.268.797.80.82MMMMGSGS0-sho0-sho78.792.37.29.592.392.3HumHumnEnEho738176.286,086,085.469.573.0ha75.482.373.880.285.772.879.4FEvaFEvaPhompl-Stnd-AccnstnAce79.979.986.186.177.864.361.772.277.684.277.183.7TFEvalTFEvalDistactorFOn-topic FI81.297.753.61、095.727.883.567.597.6Table5:Evaluationresultsofinstructmodelsonautomaticbenchmarks.Boldindicatesthetopscoreamongall models,while underlined indicatesthetopscore amongopen-source models.资料来源：英伟达，国盛证券研究所3 3.3 3微软微软 Orca-3:智智能体框架 AgentInstruct,生生成成式教学为了解决训练数据短缺和质量差的难题，微软研究院发布了一个专门用于生成高质量合成数据的的智能体框架Ag62、entInstruct,能够自动创建大量、多样化的合成数据。它最大的优势在于，仅只用原始数据源，就能创建完整的提示和回应。借助智能体框架，对训练模型进行生成式教学。微软团微软团队在队在AgentInstruct:Toward论文中提到论文中提到“生成式教学生成式教学”的概念，即使用合的概念，即使用合成数据进行后训练，特别是通过强大的模型创建数据，来教另一个模型新技能或行为，而AgentInstruct则是生成式教学的一个智能体解决方案。具体的训练途径为：AgentInstructAgentInstruct首先收集各种原始数据种子，如教科书章节、网络文章、代码片段等，然后通过ContentTra63、nsformation Agents智能体将原始的种子材料转换成一种中间形式，这种形式简化了后续步骤中针对具体目标创建指令的过程。在种子指令创建流程中，Instruction Creation Agents智能体会进一步处理这些经过初步转换的内容，创造出多样化的指令。该阶段的目标是生成一系列具有挑战性且多样的任务，从而让模型在训练过程中接触到尽可能多的不同类型的任务。P.14请请仔仔细细阅阅读读本本报报告告末末页页声声明明P.15请仔细阅读本报告末页声明请仔细阅读本报告末页声明2 2 0 0 2 2 4 4 年年 0 0 9 9 月月 1 1 9 9 日日与原始的Mistral-7b-Inst64、ruct 相比，Orca-3 在多个基准测试中都显示出显著的性能提升。研究人员通过AgentInstruct自动生成了2500万个配对的高质量合成数据集，包含文本编辑、创意写作、编程、阅读理解等，再用生成的数据对 Mistral-7b模型进行了训练、微调，开发了Orca-3 模型。在一系列基准测试中，Orca-3 相比原本的Mistral-7b-Instruct的模型性能提升明显，例如在AGIEval 上提升了 4 0%,MMLU上提高了 1 9%,GSM8K上进步了 5 4%,BBH上提升了 3 8%,AlpacaEval 上提升了45%45%。同时，Orca-3O65、rca-3 在多项指标上也超越了LLAMA-8B-instruct 和 GPT-3.5-turbo 等其他模型。图表18:Orca-3和其他模型在各任务中表现对比ModelModelOrca-3-7BOrca-2.5-7BMistral-Mistral-7B-InstructInstructLLAMA3-LLAMA3-8B8BinstructinstructGPT-3.5-GPT-3.5-turboturboGPT-4AGIEvalAGIEval56.80(+40%)42.7140.5247.1750.9161.99MMLUMMLU69.95(+19%)60.3458.6163.4468.2666、67.07ARCARC92.47(+12%)86.3982.7285.7492.093.35BBHBBH61.83(+38%)48.6344.7154.9754.1776.06GPQAGPQA28.12(-4%)27.6829.4628.1227.933.93DROPDROP71.14(+22%)65.1958.1268.4467.1567.36GSM8KGSM8K83.09(+54%)74.354.0677.4878.1*86.88FOFOFOFO84.01(+12%)66.1975.379.3576.9287.45IFEvalIFEval49.54(+2%)45.2948.6158.67967、.3MT-BenchMT-Bench8.20(+9%)7.157.537.998.019.04AlpacaEvalAlpacaEval24.80(+45%)13.4717.122.922.755InfoBenchInfoBench84.30(+4%)79.68186.789.4EQBenchEQBenchMetric-v2Metric-v291.36(+4%)91.36(+4%)88.0388.0387.7587.7588.6788.6788.9588.9593.3293.32Metric-vlMetric-vl50.28(+28%)50.28(+28%)38.838.839.2739.27468、2.1342.1342.0542.0555.9855.98TableTable 3:Performance3:Performance ofof Orca-3Orca-3 andand otherother baselinebaseline modelsmodels onon a allll thethe benchmarks.Note:benchmarks.Note:GPT-3.5-turboscores forGSM8Kare takenfrom1.Weshow in(+x%)therelativeimprovementoverMistral-7b-Instruct.资料来源：微软，国盛证券69、研究所就阅读理解任务来说，通过使用AgentInstruct进行针对性训练，Orca-3的阅读理解能力有了实质性的提升相比OrcaOrca 2.52.5提高了18%,相对于Mistral-Instruct-7b提高了21%。而在数学方面，Orca-3在各种流行的数学基准测试上，改进幅度从44%-168%不等。图表19:阅读理解任务中Orca-3和其他模型的表现对比图表20:数学任务中Orca-3和其他模型的表现对比ModeOra-3Drca-2.5Mistral-nstCPT-3.5-GPT-AGIEval math42.90(+73%,+168%24.816.038.057.9AGIEval70、 sat-math80.91的50.4554.067.730.0agH multisteinet066.8(+1418%+882%4.46.846.477.2MMLU abstractlgebraMMLUMMLU collegecollegenathematicMMLU high-schoothematiesthematies55.00+1297+io24.027047.070.044.00+63%,+44%30.034.039.02.0(+4017.4157.0.67SM8KSM8K(+12%+5%)74354.078.1*86.88资料来源：微软，国盛证券研究所资料来源：微软，国盛证券研究71、所ModelModel0rca-37BOrca-2.5MistralTB-AnstrucGPT-35turboGPT-4GIFalGIFal lkat-lkat-75.84(+21%,+20%)624563.263.5772.86AGIExalsat-eAGIExalsat-e87.38(+13%,+15%)7.1875.73820482.52AGIEvalAGIEvalgaokagaokao-engliso-english h87.25(+13%,+17%)77.4574.8483.087.25AGIEalAGIEal bat-lrbat-lr63.14(+45%,+36%)43.536.272、754.968.82DROPDROP71.14(+9%+22%)65.1958.1267.1567.36AverageAverage76.95(+18%,+21%)65.1663.6370.1375.76P.16请请仔仔细细阅阅读读本本报报告告末末页页声声明明2 0 2 4 年 0 9 月 1 9 日4 4投资建议：投资建议：OpenAIOpenAI揭示的推理揭示的推理 ScalingScaling LawLaw 利好算力板利好算力板块根据OpenAI工程师Jason Wei,o1在强化学习(RL)中使用的思维链(Chain of Thought)可以使模型在推理阶段实现能力增强，即Scali73、ng Law(指大模型随着参数的增大而增强能力)可以不止出现在训练阶段，也出现在推理阶段。进一步，根据OpenAI,o1模型训练和测试阶段在美国奥林匹克数学竞赛(AIME)的表现随着训练和测试计算量的增长而变得更好，这表明o1“推理时，在响应用户前，思考更多”有助于让01表现更好，这正是推理Scaling Law。我们认为，o1的发布并不是大模型的终点，而是开拓了新的道路，即：1、大模型的准确率还能继续提高；2、“合成数据+强化学习”是一条值得探索的路径；3、推理能力的增强为垂类应用落地奠定了基础。这一切都表明AGI的创新“叙事”还在继续、天花板仍在提高，这有助于打破投资界过往的担忧，即“推理74、需要的算力比训练少，当大模型的进化转向推理，算力板块承压”;相反，推理Scaling Law仍然利好算力板块。前期海外宏观的冲击及英伟达新品推迟的影响下，板块已有所回调，随着半年报业绩落地，市场普遍认可了龙头公司业绩释放节奏，但对行业仍显信心不足，“合成数据+强化学习”将推动AGI的未来叙事，建议关注：1)光模块产业链：中际旭创、新易盛、天孚通信、太辰光、光迅科技、华工科技、腾景科技等；2)液冷服务商：英维克；3)PCB服务商：沪电股份等；4)AIDC:润泽科技等。图表21:o1模型训练和测试阶段在美国奥林匹克数学竞赛(AIME)的表现随着训练和测试计算量的增长而变得更好o1AIMEaccur75、acyo1AIMEaccuracytrain-time compute(log scale)test-timecompute(log scale)o1 performance smoothly improves with bothtrain-time and test-time computeo1性能通过训练时和测试时计算平稳提高资料来源：OpenAI,国盛证券研究所P.17请仔细阅读本报告末页声明请仔细阅读本报告末页声明2 2 0 0 2 2 4 4 年年 0 0 9 9 月月 1 1 9 9 日日图表22:英伟达科学家Jim Fan图示01推理ScalingLawPost-training76、 InferenceMost LLMsPost-training InferencecOrJmFanPre-trainingPre-training资料来源：Jim Fan,国盛证券研究所风险提示风险提示大模型算法进展不及预期。大模型算法进展不及预期。训练ScalingLaw天花板和推理Scaling Law的有效性有待进一步验证；强化学习和思维链(CoT)有效性有待进一步验证。大模型应用落地不及预期。大模型应用落地不及预期。市场始终期待大模型应用的KillerApp,而产业发展可能跟不上市场期待；ChatGPT、Midjourney、Stable Diffusion后可能缺少有力的多模态或具77、身智能应用。全球宏观经济下行风险。全球宏观经济下行风险。当前全球经济发展存在衰退的可能性，如果主要经济体衰退发生，则市场对AI 的需求存在下行风险。2 2 0 0 2 2 4 4 年年 0 0 9 9 月月 1 1 9 9 日日免责声明免责声明国盛证券有限责任公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下，本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告的信息均来源于本公司认为可信的公开资料，但本公司及其研究人员对该等信息的准确性及完整性不作任何保证。本报告中的资料78、、意见及预测仅反映本公司于发布本报告当日的判断，可能会随时调整。在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态，对本报告所含信息可在不发出通知的情形下做出修改，投资者应当自行关注相应的更新或修改。本公司力求报告内容客观、公正，但本报告所载的资料、工具、意见、信息及推测只提供给客户作参考之用，不构成任何投资、法律、会计或税务的最终操作建议，本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户，不构成客户私人咨询建议。投资者应当充分考虑自身特定状况，并完整理解和使用本报告内容，不应视本报告为做79、出投资决策的唯一因素。投资者应注意，在法律许可的情况下，本公司及其本公司的关联机构可能会持有本报告中涉及的公司所发行的证券并进行交易，也可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。本报告版权归“国盛证券有限责任公司”所有。未经事先本公司书面授权，任何机构或个人不得对本报告进行任何形式的发布、复制。任何机构或个人如引用、刊发本报告，需注明出处为“国盛证券研究所”,且不得对本报告进行有悖原意的删节或修改。分析师声明分析师声明本报告署名分析师在此声明：我们具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力，本报告所表述的任何观点均精准地反映了我们对标的证80、券和发行人的个人看法，结论不受任何第三方的授意或影响。我们所得报酬的任何部分无论是在过去、现在及将来均不会与本报告中的具体投资建议或观点有直接或间接联系。投资评级说明投资评级说明投资建议的评级标准投资建议的评级标准评级评级说明说明评级标准为报告发布日后的6个月内公司股价(或行业指数)相对同期基准指数的相对市场表现。其中A股市场以沪深300指数为基准；新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的)为基准；香港市场以摩根士丹利中国指数为基准，美股市场以标普500500指数或纳斯达克综合指数为基准。股票评级买入相对同期基准指数涨幅在15%以上增持相对同期基准指数涨幅在5%81、15%之间持有相对同期基准指数涨幅在-5%+5%之间减持相对同期基准指数跌幅在5%以上行业评级增持相对同期基准指数涨幅在10%以上中性相对同期基准指数涨幅在-10%+10%之间减持相对同期基准指数跌幅在10%以上国国盛盛证证券券研研究究所所北京北京上海上海地址：北京市东城区永定门西滨河路8 8号院号院7 7楼中海地产楼中海地产地址：上地址：上海市浦东新区南洋泾路海市浦东新区南洋泾路555555号陆家嘴金融街区号陆家嘴金融街区2222广场东塔7层栋邮编：100077邮编：200120邮箱：电话：021-38124100邮箱：南昌南昌深圳深圳地址：南昌市红谷滩新区凤凰中大道1115 号北京银行大厦地址：深圳市福田区福华三路100号鼎和大厦24 楼邮编：330038邮编：518033传真：0791-86281485邮箱：邮邮箱箱：.c o mP.18请仔细阅读本报告末页声明请仔细阅读本报告末页声明g s r e s e a r c h g s z q

通信行业深度：“合成数据+强化学习”大模型进化的新范式-240919（18页）.pdf

定制报告-个性化定制-按需专项定制研究报告

行业报告、薪酬报告

联系：400-6363-638

下载