• 首页 >  人工智能 >  生成式AI
  • 2024生成式AI发展趋势展望及海外巨头企业生成式AI技术革新进展分析报告(42页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《2024生成式AI发展趋势展望及海外巨头企业生成式AI技术革新进展分析报告(42页).pdf》由会员分享,可在线阅读,更多相关《2024生成式AI发展趋势展望及海外巨头企业生成式AI技术革新进展分析报告(42页).pdf(42页珍藏版)》请在本站上搜索。

    1、2 0 2 3 年深度行业分析研究报告目录目录 第一部分:生成式第一部分:生成式AI快速发展,技术奇点有望到来快速发展,技术奇点有望到来 第二部分:技术创新百花齐放,海外巨头引领创新第二部分:技术创新百花齐放,海外巨头引领创新2PBmVlX8YlYnVlW6MbP7NsQrRoMtPkPnNqMiNmMoM7NnMrRuOrRpMxNpOrO1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展3资料来源:信通院人工智能生成内容(AIGC)白皮书,CSDN官网,阿里云开发者社区,NIH Record官网,MIT官网,51CTO官网,机器之心官网,腾讯云开发

    2、者社区,科技行者官网,雷锋网,澎湃新闻网,winbuzzer官网,MBA百科,Geekwire官网,datamarketinglabs官网,安全客官网,AIGC开放社区公众号,IT之家官网,OpenAI官网,36氪官网,国元证券研究所1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展41基础的生成算法模型是基础的生成算法模型是驱动驱动AI的关键的关键2014年,伊恩古德费洛(lan Goodfellow)提出的生成对抗网络(Generative Adversarial Network,GAN)成为早期最为著名的生成模型。GAN使用合作的零和博弈框架来学

    3、习,被广泛用于生成图像、视频、语音和三维物体模型。随后,Transformer、基于流的生成模型(Flow-based models)、扩散模型(Diffusion Model)等深度学习的生成算法相继涌现。Transformer模型是一种采用自注意力机制的深度学习模型,这一机制可按输入数据各部分的重要性分配权重,可用于自然语言处理(NLP)、计算机视觉(CV)领域应用,后来出现的BERT、GPT-3、laMDA等预训练模型都是基于Transformer模型建立的。图:图:AIGC技术累积融合技术累积融合资料来源:腾讯研究院AIGC发展趋势报告,国元证券研究所1.1 发展历程:算法模型持续迭代

    4、,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展51基础的生成算法模型是基础的生成算法模型是驱动驱动AI的关键的关键模型模型提出时间提出时间模型描述模型描述变分自动编码(VariationalAutoencoders,VAE)2014年基于变分下界约束得到的Encoder-Decoder模型对。生成对抗网络(GAN)2014年基于对抗的Generator-Discriminator模型对。基于流的生成模型(Flow-based models)2015年学习一个非线性双射转换(bijective transformation),其将训练数据映射到另一个空间,在该空间上分布是可以因子化的

    5、,整个模型架构依靠直接最大化log-likelihood来完成。扩散模型(Diffusion Model)2015年扩散模型有两个过程,分别为扩散过程和逆扩散过程。在前向扩散阶段对图像逐步施加噪声,直至图像被破坏变成完全的高斯噪声,然后在逆向阶段学习从高斯噪声还原为原始图像的过程。经过训练,该模型可以应用这些去噪方法,从随机输入中合成新的“干净”数据。Transformer模型2017年一种基于自注意力机制的神经网络模型,最初用来完成不同语言之间的文本翻译任务,主体包含Encoder和Decoder部分,分别负责对源语言文本进行编码和将编码信息转换为目标语言文本。神经辐射场(Neural Ra

    6、diance Field,NeRF)2020年提出了一种从一组输入图像中优化连续5D神经辐射场的表示(任何连续位置的体积密度和视角相关颜色)的方法,要解决的问题就是给定一些拍摄的图,如何生成新的视角下的图。CLIP(Contrastive Language-Image PreTraining)模型2021年1)进行自然语言理解和计算机视觉分析;2)使用已经标记好的“文字-图像”训练数据。一方面对文字进行模型训练,一方面对图像进行另一个模型的训练,不断调整两个模型的内部参数,使得模型分别输出的文字特征和图像特征值确认匹配。DiT(Diffusion Transformers)模型2023年用Tr

    7、ansformer替换了传统的U-Net主干,在潜在空间中对图像进行建模,并通过Transformer的注意力机制学习图像的全局依赖关系,具有良好的可扩展性,可以训练到更高的分辨率和更大的模型容量。资料来源:腾讯研究院AIGC发展趋势报告,经纬创投公众号,国元证券研究所表:主流生成模型一览表表:主流生成模型一览表1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展61基础的生成算法模型是基础的生成算法模型是驱动驱动AI的关键的关键资料来源:虎嗅APP公众号,国元证券研究所通过梳理全球主流大语言模型(LLM)的发展脉络,2018年以来的GPT系列、LLaM

    8、A系列、BERT系列、Claude系列等多款大模型均发源于Transformer架构。1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展72预训练模型引发了预训练模型引发了AI技术能力的质变技术能力的质变预训练模型是为了完成特定任务基于大型数据集训练的深度学习模型,让AI模型的开发从手工作坊走向工厂模式,加速AI技术落地。2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构Transformer架构,奠定了大模型预训练算法架构的基础。2018年,OpenAI和Google分别发布了GPT-1与BERT大模型,意味着预训练大模型成为自然语

    9、言处理领域的主流。资料来源:IDC2022中国大模型发展白皮书,国元证券研究所图:预训练相当于“通识教育”图:预训练相当于“通识教育”图:图:Transformer模型结构模型结构资料来源:CSDN官网,国元证券研究所1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展2预训练模型引发了预训练模型引发了AI技术能力的质变技术能力的质变开发者开发者预训练模型预训练模型应用应用参数量参数量领域领域开发者开发者预训练模型预训练模型应用应用参数量参数量领域领域谷歌Gemini 1.5图像、文本、视频、音频和代码理解,生成文本等多模态DeepMindGato多面手

    10、的智能体12亿多模态Gemini图像、文本、视频、音频和代码理解,生成文本等多模态Gopher语言理解与生成2800亿NLPBERT语言理解与生成4810亿NLPAlphaCode代码生成414亿NLPLaMDA对话系统NLPOpenAIGPT4图像与文本理解、文本生成等多模态PaLM语言理解与生成、推理、代码生成 5400亿NLPGPT3语言理解与生成、推理等1750亿NLPImagen语言理解与图像生成110亿多模态CLIP&DALL-E图形生成、跨模态检索120亿多模态Parti语言理解与图像生成200亿多模态Codex代码生成120亿NLP微软Florence视觉识别6.4亿CVCha

    11、tGPT语言理解与生成、推理等NLPTuring-NLP语言理解、生成170亿NLP英伟达Megatron语言理解与生成5300亿NLPFacebookOPT-175B语言模型1750亿NLPTuring NLPM2M-100100种语言互译150亿NLPStability AIStable Diffusion 语言理解与图像生成多模态MetaLLaMA语言理解与生成70-650亿NLPAnthropicClaude语言理解与生成等NLPLLaMA 2语言理解与生成70-700亿NLPClaude 2语言理解与生成、编程、推理等NLPSAM图像分割10亿CVClaude 3语言理解与生成、编程

    12、、推理、图片理解等多模态表:海外主要预训练大模型汇总表:海外主要预训练大模型汇总资料来源:腾讯研究院AIGC发展趋势报告,智东西公众号,澎湃新闻网,Llama family官网,百度云智能官网,Datalearner官网,AIGC开放社区公众号,机器之心公众号,CSDN官网,国元证券研究所81.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展93Scaling Laws:模型容量、数据量、训练成本共同构成了大模型训练的不可能三角。大模型训练的目标是最大化模型性能,模型训练成本(GPU的数量和训练时间等)是受限的,因此一般通过增加数据集大小和增加模型中的参

    13、数量两种途径来提升模型性能。预训练数据直接决定预训练数据直接决定AI大模型性能大模型性能资料来源:神州问学公众号,国元证券研究所图:扩展大模型的三个选项:模型容量、数据量、训练成本图:扩展大模型的三个选项:模型容量、数据量、训练成本1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展103预训练数据从数据来源多样性、数据规模、数据质量三方面影响模型性能。以GPT模型为例,其架构从第1代到第4代均较为相似,而用来训练数据的数据规模和质量却有很大的提升,进而引发模型性能的飞跃。以吴恩达(Andrew Ng)为代表的学者观点认为,人工智能是以数据为中心的,而不

    14、是以模型为中心。“有标注的高质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展会更快”。预训练数据直接影响预训练数据直接影响AI大模型性能大模型性能图:预训练数据直接影响模型性能图:预训练数据直接影响模型性能资料来源:阿里研究院公众号,国元证券研究所来源多样性来源多样性针对大模型需求制定配比针对大模型需求制定配比不同场景/领域的数据具有不同的语言特征,对模型能力提升的点也不同。如:书籍语料占比提升,可以提升上下文理解能力足够规模的高质量语料足够规模的高质量语料随着模型参数量的增加,也需要更多数据来训练。只有参数规模突破了100亿以上的大模型才具有“涌现能力”高质量

    15、训练集能提高模型精度高质量训练集能提高模型精度,减少训练时长减少训练时长有重复、噪声、错误数据等低质量语料会损害模型性能。如:训练语料有重复,会影响模型对上下文的理解能力数据规模数据规模数据质量数据质量userid:93117,docid:158148,date:2024-04-07,1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展113为了追求更好的模型性能,模型参数规模也与训练数据量同步快速增长,模型参数量大约每18个月时间就会增长40倍。例如2016年最好的大模型ResNet-50参数量约为2000万,2020年的GPT-3模型参数量达1750

    16、亿,2023年的GPT-4参数规模则更加庞大。图:大模型参数规模快速增长图:大模型参数规模快速增长预训练数据直接影响预训练数据直接影响AI大模型性能大模型性能资料来源:中国信通院大模型智算服务白皮书,国元证券研究所1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展124市场规模市场规模图:中国人工智能市场规模及预测(单位:亿元人民币)图:中国人工智能市场规模及预测(单位:亿元人民币)资料来源:格物致胜公众号,国元证券研究所图:全球人工智能市场规模及预测(单位:亿美元)图:全球人工智能市场规模及预测(单位:亿美元)资料来源:Statista官网,国元证券

    17、研究所随着人工智能技术的不断发展,其应用场景日益丰富,各行各业所汇聚的庞大数据资源为技术的实际应用和持续完善提供了坚实基础。根据第三方咨询机构格物致胜的统计数据,2022年中国人工智能市场规模达到2058亿元,预计2023-2027年市场规模将保持28.2%的复合增长率,2027年中国人工智能市场规模将达到7119亿元。根据statista的统计数据,2023年全球人工智能市场规模达2079亿美元,预计2030年将增至18475亿美元。0100020003000400050006000700080002020202120222023E2024E2025E2026E2027E0200040006

    18、00080001000012000140001600018000200002021202220232024E2025E2026E2027E2028E2029E2030E1.2 趋势展望:从单一模态到多模态,从趋势展望:从单一模态到多模态,从AI迈向迈向AGI131多模态技术成为大模型主战场多模态技术成为大模型主战场资料来源:Shengqiong Wu等NExT-GPT:Any-to-Any Multimodal LLM,国元证券研究所图:多模态模型实现图:多模态模型实现any to any模态的输入和输出模态的输入和输出多模态较单一模态更进一步,已经成为大模型主战场。人类通过图片、文字、语言等

    19、多种途径来学习和理解,多模态技术也是通过整合多种模态、对齐不同模态之间的关系,使信息在模态之间传递。2023年以来,OpenAI发布的GPT-4V、Google发布的Gemini、Anthropic发布的Claude 3均为多模态模型,展现出了出色的多模态理解及生成能力。未来,多模态有望实现any to any模态的输入和输出,包括文本、图像、音频、视频、3D模型等多种模态。1.2 趋势展望:从单一模态到多模态,从趋势展望:从单一模态到多模态,从AI迈向迈向AGI141多模态技术成为大模型主战场多模态技术成为大模型主战场资料来源:机器之心公众号,国元证券研究所图:多模态模型图:多模态模型GPT

    20、-4V的问答展示的问答展示多模态大型语言模型(MLLMs)的通用架构,由1)视觉编码器(Visual Encoder)、2)语言模型(Language Model)和3)适配器模块(Adapter Module)组成。1)负责处理和理解输入的视觉信息,通常使用预训练的视觉模型,如Vision Transformer(ViT)或其他卷积神经网络(CNN)架构,来提取图像特征;2)负责处理文本输入,理解和生成自然语言,语言模型基于Transformer架构,如BERT或GPT系列模型;3)负责在视觉和语言模态之间建立联系。资料来源:Davide Caffagni等The Evolution of

    21、Multimodal Large Language Models:A Survey,国元证券研究所图:多模态模型架构图图:多模态模型架构图1.2 趋势展望:从单一模态到多模态,从趋势展望:从单一模态到多模态,从AI迈向迈向AGI1523D生成:生成:AI生成技术的下一个突破口生成技术的下一个突破口资料来源:Xiaoyu Li等Advances in 3D Generation:A Survey,国元证券研究所图:图:3D生成技术的方法、数据集和应用生成技术的方法、数据集和应用3D生成技术应用广阔,但仍处在技术临界点以前。3D生成技术可广泛应用于3D虚拟人、3D人脸、3D场景等领域,目前3D生成

    22、的主流技术路径大致可分为:1)text-to-2D,再通过NeRF或Diffusion模型完成2D-to-3D,或直接通过2D素材完成3D建模;2)直接text-to-3D,该路径直接使用3D数据进行训练,从训练到微调到推理都基于3D数据。1.2 趋势展望:从单一模态到多模态,从趋势展望:从单一模态到多模态,从AI迈向迈向AGI163具身智能:智能涌现从虚拟世界走向物理世界具身智能:智能涌现从虚拟世界走向物理世界资料来源:AI前线公众号,国元证券研究所图:图:Figure 01的技术原理的技术原理资料来源:甲子光年公众号,国元证券研究所图:图:RT-2的技术原理的技术原理当大模型迁移到机器人身

    23、上,大模型的智能和泛化能力有望点亮通用机器人的曙光。2023年7月,谷歌推出机器人模型RoboticsTransformer 2(RT-2),这是一个全新的视觉-语言-动作(VLA)模型,从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。2024年3月,机器人初创企业Figure展示了基于OpenAI模型的全尺寸人形机器人Figure 01,机器人动作流畅,所有行为都是学到的(不是远程操作),并以正常速度(1.0 x)运行。1.2 趋势展望:从单一模态到多模态,从趋势展望:从单一模态到多模态,从AI迈向迈向AGI174通用人工智能还有多远通用人工智能还有多远通用人工智能(Art

    24、ificial General Intelligence,AGI)是一种可以执行复杂任务的人工智能,能够完全模仿人类智能的行为。DeepMind提出了一个衡量“性能”和“通用性”的矩阵,涵盖从无人工智能到超人类AGI(一个在所有任务上都优于所有人的通用人工智能系统)的五个级别。性能是指人工智能系统的能力与人类相比如何,而通用性表示人工智能系统能力的广度或其达到矩阵中指定性能水平的任务范围。性能狭义(明确范围的任务或任务集)广义(广泛的非体力任务,包括元认知能力,如学习新技能)0级:No AI1级:Emerging(等于或略优于人类)2级:Competent(至少50百分位的熟手)3级:Expe

    25、rt(至少90百分位的熟手)4级:Virtuoso(至少99百分位的熟手)5级:Superhuman(超过100%的人类)Narrow Non-AI(计算机软件、翻译器)General Non-AI(human-in-theloop计算)Emerging Narrow AI(GOFAI4:简单基于规则的系统,例如SHRDLU(Winograd,1971)Emerging AGI(ChatGPT(Open AI,2023)、Bard、Llama 2)Competent Narrow AI(Jigsaw,Siri,Alexa,Google Assistant,PaLl)Competent AGI尚

    26、未实现Expert Narrow AI(拼 写 和 语 法 检 查 器,如Grammarly;生成图像模型,如Imagen)Expert AGI尚未实现Virtuoso Narrow AI(Deep Blue(Campbell et all)AlphaGo)Virtuoso AGI尚未实现Superhuman Narrow AI(AlphaFold,AlphaZero,StockFish)Artificial Superintelligence(ASI)尚未实现资料来源:DeepMindLevels of AGI:Operationalizing Progress on the Path to

    27、 AGI,国元证券研究所1.2 趋势展望:从单一模态到多模态,从趋势展望:从单一模态到多模态,从AI迈向迈向AGI184通用人工智能还有多远通用人工智能还有多远2023年12月,黄仁勋表示,如果把通用人工智能(AGI)定义为能以“相当有竞争力”的方式完成人类智能测试的计算机,那么在未来五年内,我们将看到AGI。2023年11月,DeepMind联合创始人兼首席AGI科学家Shane Legg在访谈中表示,2028年,人类有50%的概率开发出第一个AGI,并且带领的DeepMind研究团队在Arxiv上公布了一篇名为AGI的水平:实现AGI道路上的操作进展论文,具体阐述了AGI的路线图和时间表。

    28、2020年,谷歌机器人团队的软件工程师Alex Irpan认为,到2035年我们有10%的概率实现AGI,但到了2024年,他认为在2028年就有10%的概率接近AGI,到2035年则有25%的概率实现AGI。图:对图:对AGI时间线的预测变得更乐观时间线的预测变得更乐观资料来源:海外独角兽公众号,国元证券研究所图:图:DeepMind关于关于AGI论文论文资料来源:DeepMindLevels of AGI:Operationalizing Progress on the Path to AGI,国元证券研究所目录目录 第一部分:生成式第一部分:生成式AI快速发展,技术奇点有望到来快速发展,

    29、技术奇点有望到来 第二部分:技术创新百花齐放,海外巨头引领潮流第二部分:技术创新百花齐放,海外巨头引领潮流192.1 OpenAI引领大模型技术,终极目标剑指引领大模型技术,终极目标剑指AGI20图:图:OpenAI发展历程发展历程资料来源:AI前线公众号,MBA百科,腾讯研究院公众号,机器之心官网,华尔街见闻官网,腾讯网,国元证券研究所OpenAI宣布成立;公司定位为“非盈利组织”,主旨是努力在安全的前提下创建通用 人 工 智 能(AGI)并 让全人类共同受益。2015OpenAI 从 非盈 利 过 渡 到“封顶盈利”OpenAI 接 受微软10亿美元投资,双方合作 为 微 软Azure 云

    30、端平台服务开发AI技术。2019OpenAI于3月发布GPT-4;OpenAI的2023 ARR年收入已达16亿美元,相比去年增长56倍,公 司 估 值 达1000 亿 美 元。2023OpenAI于2月发布AI视频生成模型Sora,能根据提示词生成长达一分钟的高清视频。1OpenAI创立:以实现安全的创立:以实现安全的AGI为主旨为主旨OpenAI于6月发布GPT-3模型,9月微软获得该模型独家许可。OpenAI 于 11月发布聊天机器 人 模 型ChatGPT,能够与人类进行多轮连续的各种对话,给出较为合理的回答,引发全球关注。202020222024OpenAI由Sam Altman、E

    31、lon Musk等在2015年创办,主旨是努力在安全的前提下创建通用人工智能(AGI)并让全人类共同受益;2020年发布GPT-3模型,2022年11月发布GPT-3.5模型,能够与人类进行多轮连续的各种对话,给出较为合理的回答;2023年3月发布GPT-4模型;2024年2月发布AI视频生成模型Sora,AI视频生成领域迎来ChatGPT时刻。2.1 OpenAI引领大模型技术,终极目标剑指引领大模型技术,终极目标剑指AGI21GPT-1通过无监督预训练和有监督微调两个步骤训练;GPT-2无需有监督微调,而是通过更大规模的模型参数和训练数据集进行无监督预训练,模型参数量达到15亿;GPT-3

    32、的模型参数和数据集进一步扩大,模型参数量增加到1750亿,上下文窗口宽度增加到2048个token。图:图:GPT模型经历多轮迭代模型经历多轮迭代资料来源:智东西微信公众号,国元证券研究所2GPT发展回顾:模型性能随结构、规模的提升不断优化发展回顾:模型性能随结构、规模的提升不断优化2.1 OpenAI引领大模型技术,终极目标剑指引领大模型技术,终极目标剑指AGI22ChatGPT/GPT-3.5:2022年11月30日发布,在GPT-3的基础上进行有监督微调(Supervised Fine-Tuning)、奖励模型训练(RewardModeling)和来自人类反馈的强化学习(Reinforc

    33、ement Learning from Human Feedback,RLHF)。ChatGPT具有以下特征:主动承认自身错误、质疑不正确的问题、承认自身的无知和对专业技术的不了解以及支持连续多轮对话,极大提升了对话交互模式下的用户体验。图:图:GPT-3.5训练过程训练过程资料来源:OpenAI官网,国元证券研究所2GPT 发展回顾:发展回顾:GPT3.5改进训练步骤实现性能跃升改进训练步骤实现性能跃升2.1 OpenAI引领大模型技术,终极目标剑指引领大模型技术,终极目标剑指AGI232GPT发展回顾:多模态大模型发展回顾:多模态大模型GPT-4图:图:GPT-4在各类学术水平测试中的成绩

    34、在各类学术水平测试中的成绩资料来源:量子位微信公众号,国元证券研究所图:图:GPT-4根据图片生成网站根据图片生成网站资料来源:量子位微信公众号,国元证券研究所2023年3月14日,OpenAI宣布推出大型的多模态模型GPT-4,可以接收图像和文本输入。OpenAI称,GPT-4参加了多种基准考试测试,包括美国律师资格考试Uniform Bar Exam、法学院入学考试LSAT、“美国高考”SAT数学部分和证据性阅读与写作部分的考试,在这些测试中,它的得分高于88%的应试者。2.1 OpenAI引领大模型技术,终极目标剑指引领大模型技术,终极目标剑指AGI242GPT发展回顾:更快更强更便宜的

    35、发展回顾:更快更强更便宜的GPT-4 Turbo00.010.020.030.040.050.060.07GPT-4(8K)GPT4(32K)GPT4 Turbo(128K)输入输出2023年11月7日,OpenAI在开发者大会披露新版本具备:1)更长的上下文长度:支持128K上下文窗口,相当于300页文本;2)更便宜:新模型的价格是每千输入token 1美分,而每千输出token 3美分,输入和输出费用分别降至GPT-4(8K)的1/3和1/2,总体使用上降价约2.75倍;3)更聪明:内部知识库更新至2023年4月,并支持上传外部数据库或文件;4)视听多模态:支持文生图模型DALL E3、文

    36、本转语音模型TTS,未来还将支持自动语音识别模型Whisper v3;5)更快的速度:用户每分钟的Token速率限制将会翻倍,可通过API账户申请进一步提速。图:图:GPT-4、GPT-4 Turbo模型价格对比(单位模型价格对比(单位:美元美元/token)资料来源:爱范儿公众号,国元证券研究所2.1 OpenAI引领大模型技术,终极目标剑指引领大模型技术,终极目标剑指AGI3最新进展:最新进展:GPT-5有望实现性能跃升有望实现性能跃升图:图:GPT-5商标申请商标申请资料来源:AIGC开放社区公众号,国元证券研究所商标律师Josh Gerben在社交平台晒出OpenAI于2023年7月1

    37、8日向美国专利商标局(USPTO)提交GPT-5商标的消息,GPT-5提供的功能包括自然语言处理、文本生成、理解、语音转录、翻译、预测和分析等,实际发布功能可能有变动。根据OpenAI首席执行官Sam Altman的披露,GPT-5将具备三大升级点:1)多模态:支持文本、语音、图像、代码和视频输入;2)个性化:理解个人偏好的能力,如整合用户信息、电子邮件、日历、约会偏好,并与外部数据源建立联系;3)推理能力和准确性:如果GPT-4目前解决了人类任务的10%,GPT-5应该是15%或者20%,当前大模型的通病幻觉问题也将在GPT-5中得到解决。252.1 OpenAI引领大模型技术,终极目标剑指

    38、引领大模型技术,终极目标剑指AGI264图片生成模型:图片生成模型:OpenAI发布发布DALL.E 32023年9月,OpenAI发布DALL.E 3,比以往系统更能理解细微差别和细节,能够让用户更加轻松地将自己的想法转化为非常准确的图像;该模型原生构建在ChatGPT之上,用ChatGPT来创建、拓展和优化prompt,用户无需在prompt上花费太多时间。DALL.E 3的技术架构主要分为图像描述生成和图像生成两大模块。图像描述生成模块使用了CLIP图像编码器和GPT语言模型(GPT-4),可为每张图像生成细致的文字描述;图像生成模块先用VAE将高分辨率图像压缩为低维向量,降低学习难度。

    39、然后使用T5 Transformer将文本编码为向量,并通过GroupNorm层将其注入diffusion模型,指导图像生成方向。26图:图:DALL.E 3生成高质量图像生成高质量图像资料来源:OpenAI官网,国元证券研究所2.1 OpenAI引领大模型技术,终极目标剑指引领大模型技术,终极目标剑指AGI275视频生成模型:视频生成模型:OpenAI发布“物理世界模拟器”发布“物理世界模拟器”Sora2024年2月16日,OpenAI发布AI生成视频模型Sora,其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像,甚至包括生成长达一分钟的高清视频,“碾压”了行业目前平均约”

    40、4s”的视频生成长度,AI视频生成领域迎来ChatGPT时刻。OpenAI在Sora技术报告中写道:”Our results suggest that scaling video generation models is a promising path towards buildinggeneral purpose simulators of the physical world”.27图:图:Sora生成生成1分钟的连贯高清视频分钟的连贯高清视频资料来源:OpenAI官网,国元证券研究所图:图:Sora官方简介官方简介资料来源:OpenAI官网,国元证券研究所2.1 OpenAI引领大模型

    41、技术,终极目标剑指引领大模型技术,终极目标剑指AGI285视频生成模型:视频生成模型:OpenAI发布“物理世界模拟器”发布“物理世界模拟器”SoraSora不仅接受文字输入,还可根据图像和视频输入来生成视频。Sora能够执行各种图像和视频编辑任务创建完美循环的视频、为静态图像制作动画、在时间维度上向前或向后扩展视频、在两个截然不同的输入视频之间实现无缝过渡、零输入转换输入视频风格和场景,展示了该模型在图像和视频编辑领域的强大能力和应用潜力,有望给产业端带来革命性的变革。28图:图:Sora根据图片输入生成视频根据图片输入生成视频资料来源:OpenAI官网,国元证券研究所2.1 OpenAI引

    42、领大模型技术,终极目标剑指引领大模型技术,终极目标剑指AGI295视频生成模型:视频生成模型:OpenAI发布“物理世界模拟器”发布“物理世界模拟器”Sora模型尺度扩展带来惊人的涌现能力(emerging simulation capabilities)。1)3D一致性:在3D一致性方面,Sora能够生成带有动态摄像头运动的视频。随着摄像头的移动和旋转,人物和场景元素在三维空间中始终保持一致的运动规律。2)较长视频的连贯性和对象持久性:这是视频生成领域面对的一个重要挑战,而Sora能有效为短期和长期物体间的依赖关系建模,人和物被遮挡或离开画面后,仍能被准确地保存和呈现。3)与世界互动:Sor

    43、a能以简单的方式模拟影响世界状态的行为,例如画家可以在画布上留下新的笔触。4)模拟数字世界:Sora能够模拟人工过程,比如视频游戏。29图:图:Sora生成的视频具备生成的视频具备3D一致性一致性资料来源:OpenAI官网,国元证券研究所图:图:Sora生成生成我的世界我的世界游戏视频游戏视频资料来源:OpenAI官网,国元证券研究所2.1 OpenAI引领大模型技术,终极目标剑指引领大模型技术,终极目标剑指AGI305视频生成模型:视频生成模型:OpenAI发布“物理世界模拟器”发布“物理世界模拟器”SoraSora的本质是一种Diffusion transformer模型。Diffusio

    44、n transformer(DiT)架构由William Peebles 和Saining Xie在2023年提出,使用Transformer来训练图像的潜在扩散模型,取代了通常使用的U-Net骨干网络,融合了扩散模型与自回归模型的双重特性。AI生成视频的技术路线主要经历了四个阶段:循环网络(RNN)、生成对抗网络(GAN)、自回归模型(autoregressive transformers)、扩散模型(diffusion models)。目前领先的视频模型大多数是扩散模型,比如Runway、Pika等。自回归模型由于更好的多模态能力与扩展性也成为热门的研究方向,如谷歌在2023年12月发布的

    45、VideoPoet。30图:图:Diffusion transformer模型架构模型架构资料来源:深度学习与计算机视觉公众号,国元证券研究所2.1 OpenAI引领大模型技术,终极目标剑指引领大模型技术,终极目标剑指AGI5视频生成模型:视频生成模型:OpenAI发布“物理世界模拟器”发布“物理世界模拟器”SoraSora模型训练范式:patch统一原始视觉数据。OpenAI提出了一种用patch作为视频数据来训练视频模型的方式,patch是将图像或视频帧分割成的一系列小块区域,是模型处理和理解原始数据的基本单元,这是从大语言模型的token汲取的灵感。Token统一了文本的多种模式代码、数

    46、学和各种自然语言,而patch则统一了图像与视频。过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸,而这损耗了视频生成的质量,将图片与视频数据patch化之后,无需对数据进行压缩,就能够对不同分辨率、持续时间和长宽比的视频和图像的原始数据进行训练。图:图:OpenAI将视频转换为将视频转换为patch来统一视觉数据输入来统一视觉数据输入资料来源:腾讯研究院公众号,国元证券研究所312.1 OpenAI引领大模型技术,终极目标剑指引领大模型技术,终极目标剑指AGI325视频生成模型:视频生成模型:OpenAI发布“物理世界模拟器”发布“物理世界模拟器”SoraSora模型训练范

    47、式:re-captioning标注技术带来优秀的语言理解能力。训练文本转视频生成系统需要大量带有相应文本字幕的视频,为此OpenAI借鉴了DALL E3中的re-captioning技术,首先训练了一个高度描述性的转译员模型,然后使用它为训练集中的所有视频生成文本转译。通过这种方式对高度描述性的视频转译进行训练,可显著提高文本保真度和视频的整体质量。与DALL E3类似,OpenAI利用GPT技术将简短的用户提示转换为更长的详细转译,并发送到视频模型,令Sora能精确按照用户提示生成高质量视频。32图:提示词“一个玩具机器人穿着绿色的连衣裙和太阳帽在美丽的日落期间在南极洲愉快地漫步”图:提示词

    48、“一个玩具机器人穿着绿色的连衣裙和太阳帽在美丽的日落期间在南极洲愉快地漫步”资料来源:OpenAI官网,国元证券研究所2.2 Meta采取开源策略,发布多款重磅大模型采取开源策略,发布多款重磅大模型331大语言模型:开源大语言模型:开源LLaMA 22023年7月,Meta发布了开源大语言模型LLaMA 2。LLaMA 2是在LLaMA 1基础之上构建而成,训练数据比上一版本多出40%,拥有70亿、130亿和700亿三种参数,并且允许商业化。技术方面,该预训练模型接受了2万亿个标记的训练,上下文长度是上一版本的两倍,能处理更长的文本内容;性能方面,LLaMA-13B在大多数基准上超过了参数量达

    49、1750亿的GPT-3。33图:图:LLaMA 2有三种参数规模有三种参数规模资料来源:36氪官网,国元证券研究所图:图:LLaMA 2训练流程训练流程资料来源:36氪官网,国元证券研究所2.2 Meta采取开源策略,发布多款重磅大模型采取开源策略,发布多款重磅大模型342视觉大模型:开源图片分割基础模型视觉大模型:开源图片分割基础模型SAM2023年4月,Meta AI在官网发布了基础模型Segment Anything Model(SAM)并开源。SAM已在1100万张图片和11亿个掩码的数据集上进行了训练,具有超强的自动识别、切割功能。SAM能感知超出数据训练的对象和图像,就算图片不在S

    50、AM训练范围内,它也能识别。这意味着,用户无需再收集自己的细分数据,并为用例模型进行微调。SAM可以集成在任何希望识别、切割对象的应用中,在医疗、农业、气象、天文、媒体等主流行业拥有广阔的应用空间。图:图:SAM模型识别能力极强模型识别能力极强资料来源:AIGC开放社区公众号,国元证券研究所图:图:SAM可用于医疗领域可用于医疗领域资料来源:AIGC开放社区公众号,国元证券研究所2.2 Meta采取开源策略,发布多款重磅大模型采取开源策略,发布多款重磅大模型353多模态大模型:开源多模态大模型:开源ImageBind,具备超强联想能力,具备超强联想能力2023年5月,Meta开源了多模态大模型

    51、ImageBind,可跨越图像、视频、音频、深度、热量和空间运动6种模态进行检索。例如,输入鸽子的图片,外加一个摩托音频,模型能够检索出一张摩托和鸽子的图片。ImageBind模型把不同模态数据串联在一个嵌入空间(Embedding Space),从多维度理解世界,未来将引入更多模态增强对世界感知,比如如触觉、语音、嗅觉和大脑fMRI信号。图:图:ImageBind模型可跨越模型可跨越6种模态进行检索种模态进行检索资料来源:新智元公众号,国元证券研究所2.3 Google技术积累深厚,模型发布节奏加速技术积累深厚,模型发布节奏加速1多年布局:理论基础深厚,发布多个基础架构多年布局:理论基础深厚

    52、,发布多个基础架构2016年,谷歌宣布公司战略从Mobile First转向AI First,此后陆续发布Transformer、BERT、T5等重要的基础模型(架构);2023年4月,谷歌将Google Brain和DeepMind合并为Google DeepMind,全力冲刺AI,8个月后发布Gemini。资料来源:飞哥说AI微信公众号,澎湃新闻网,36氪官网,国元证券研究所20142017.06Google在在AI领域领域的发展时间线的发展时间线Google发布Transformer,成为后来所有LLM的基础框架;DeepMind提出RLHF的方法Google发布编码器的BERT(最大3

    53、.5亿参数),用于微调下游任务Google再发LaMDA(1370亿参数),称其具有“意识”DeepMind发布Gopher(2800亿参数),加入LLM大战Google发布FLAN,转向decoder-only,提出Instruction TuningGoogle官宣基于LaMDA的BardGoogle表示将合并旗下两个主要的人工智能研究部门Google Brain和DeepMind成立Google DeepMindGoogle发布GeminiDeepMind发布Sparrow加入RLHF和Retrival(Google Search)2018.102019.10Google发布基于Tran

    54、sformer Decoder的T5,兼容BERT和GTP的下游任务Google收购DeepMind2021.102021.112022.012022.04Google发布PaLM(5400亿参数,decoder-only),提出神奇的思维链2023.122023.042023.022022.092024.02Google发布Gemini1.5 362.3 Google技术积累深厚,模型发布节奏加速技术积累深厚,模型发布节奏加速372大语言模型:大语言模型:PaLM 2实现轻量化,可在移动设备上离线运行实现轻量化,可在移动设备上离线运行PaLM2性能升级,部分测试结果超过GPT-4,轻量版可运

    55、行在移动设备上:2023年5月,谷歌发布PaLM2,对于具有思维链prompt或自洽性的MATH、GSM8K和MGSM基准评估,PaLM 2的部分结果超越了GPT-4。PaLM2包含四种尺寸的模型,其中最轻量的“壁虎”版本能在移动设备上快速运行(包括离线状态)。谷歌将PaLM2融入办公软件、搜索引擎等产品:AI聊天机器人Bard被整合到谷歌的办公软件“全家桶”中,为Gmail、GoogleDocs、Sheets以及Slides创造了名为”DuetAI”的办公助手;Bard还被整合到谷歌搜索优化搜索答案。资料来源:科技最前线公众号,国元证券研究所37图:图:PaLM 2技术报告技术报告图:图:P

    56、aLM 2包含四种尺寸的模型包含四种尺寸的模型资料来源:澎湃新闻官网,国元证券研究所2.3 Google技术积累深厚,模型发布节奏加速技术积累深厚,模型发布节奏加速3多模态模型:最新发布多模态模型:最新发布Gemini 1.5,支持超长上下文窗口,支持超长上下文窗口2024年2月,谷歌发布最新一代MoE多模态模型Gemini 1.5。MoE(Mixture of Experts)是一种混合模型,由多个子模型(即专家)组成,核心思想是使用一个门控网络来决定每个数据应该被哪个模型训练,从而减轻不同类型样本之间的干扰。支持超长的上下文窗口,信息处理能力进一步增强。谷歌增加了Gemini 1.5 Pr

    57、o的上下文窗口容量,并实现在生产中运行高达100万个Token,远超32k的Gemini 1.0、128k的GPT-4 Turbo、200k的Claude 2.1,这意味着Gemini 1.5 Pro可以一次性处理大量信息包括1小时的视频、11小时的音频、超过30000行代码的代码库或超过700000个单词。图:图:Gemini 1.5的上下文窗口长度超过多个主流模型的上下文窗口长度超过多个主流模型资料来源:甲子光年公众号,国元证券研究所图:图:Gemini 1.5 Pro与与Gemini 1.0系列比较系列比较资料来源:甲子光年公众号,国元证券研究所382.3 Google技术积累深厚,模型

    58、发布节奏加速技术积累深厚,模型发布节奏加速4图像生成模型:图像生成模型:Imagen 2可生成高质量、更逼真的输出可生成高质量、更逼真的输出2023年12月,Google发布最新的图像模型Imagen 2,在数据集和模型方面改善了文本到图像工具经常遇到的许多问题,包括渲染逼真的手和人脸,以及保持图像没有干扰视觉的伪影。Imagen 2基于扩散技术提供了高度的灵活性,使控制和调整图像风格变得更加容易。通过提供参考风格的图像并结合文字提示,使用者可以调节Imagen 2生成相同风格的新图像;此外,还支持修补(inpainting)和扩图(outpainting)等图像编辑功能。图:图:Imagen

    59、 2通过使用参考图片和文本提示更容易地控制输出风格通过使用参考图片和文本提示更容易地控制输出风格资料来源:机器之心公众号,国元证券研究所图:图:Imagen 2生成逼真手部和人脸的图像生成逼真手部和人脸的图像资料来源:机器之心公众号,国元证券研究所392.3 Google技术积累深厚,模型发布节奏加速技术积累深厚,模型发布节奏加速405视频生成模型:视频生成模型:Genie可通过单张图像生成交互式环境可通过单张图像生成交互式环境2024年2月26日,谷歌发布Genie(Generative Interactive Environments),它是一个110亿参数的基础世界模型,可通过单张图像提

    60、示生成可玩的交互式环境。谷歌认为Genie是实现通用智能体的基石之作,未来的AI智能体可以在新生成世界的无休止的curriculum中接受训练,从Genie学到的潜在动作可以转移到真实的人类设计的环境中。Genie包含三个关键组件:1)潜在动作模型(Latent Action Model,LAM),用于推理每对帧之间的潜在动作;2)视频分词器(Tokenizer),用于将原始视频帧转换为离散token;3)动态模型,给定潜在动作和过去帧的token,用来预测视频的下一帧。40图:图:Genie模型训练过程模型训练过程资料来源:机器之心公众号,国元证券研究所2.4 Anthropic与与Open

    61、AI一脉相承,发布一脉相承,发布Claude大模型大模型1AI独角兽独角兽AnthropicAnthropic是一家人工智能创业公司,由OpenAI前研究副总裁达里奥 阿莫迪(Dario Amodei)、大语言模型GPT-3论文的第一作者汤姆 布朗(Tom Brown)等人在2021年创立。2023年2月,获得Google投资3亿美元,Google持股10%;2023年3月,发布类似ChatGPT的大语言模型Claude;2023年7月,发布新一代Claude 2模型;2024年3月,发布Claude 3模型。图:图:Anthropic官网简介官网简介资料来源:Anthropic官网,国元证券

    62、研究所412.4 Anthropic与与OpenAI一脉相承,发布一脉相承,发布Claude大模型大模型2多模态模型:多模态模型:Claude 3基准测试表现优秀基准测试表现优秀2024年3月,Anthropic发布最新的多模态模型Claude 3,该系列包含三个模型:Claude 3 Haiku、Claude 3 Sonnet和Claude 3Opus。其中,能力最强的Opus在多项基准测试中得分都超过了GPT-4和Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。多模态方面,用户可以上传照片、图表、文档和其他类型的非结构化数据,让AI分析和解答。图:图:Claude 3基准测试的表现结果基准测试的表现结果资料来源:机器之心公众号,国元证券研究所42