定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《艾瑞咨询:2022年中国智能语音转写行业研究报告(43页).pdf》由会员分享,可在线阅读,更多相关《艾瑞咨询:2022年中国智能语音转写行业研究报告(43页).pdf(43页珍藏版)》请在本站上搜索。 1、释放数字生产力,留存探索语音内容2022.12 iResearch Inc.智能语音转写行业研究报告2研究背景:研究对象:在工具不发达的年代,会议记录主要依靠人力完成,以多人合作的分工形式提升记录效率。后随着记录工具不断升级和专业培训,人工转写的效率也在不断提升,专业速录师可依靠速录机完成会议等场景的转写需求,但成本较高。后随着互联网及人工智能技术的不断发展,智能语音转写产品应运而生。尤其在 2011 年,大量研究人员转向深度学习在智能语音领域的研究,利用大数据、机器学习和大算力“三驾马车”,让语音识别的识别准确度再一次得到明显提升,智能语音技术迎来落地应用的发展期。”工欲善其事,必先利其器“2、,智能化的语音转写服务以价优、质高、便捷的优势满足了转写记录这一交流场景的需求痛点,并在远程办公、新媒体、国际化交流的需求背景下,未来保持强劲市场增长力。作为语音识别技术的产品应用,智能语音转写产品是可以支持长音频识别的语音转文字服务,分为实时语音转写与非实时语音转写,可为信息处理和数据挖掘提供基础。研究方法:本报告通过业内资深的专家访谈、桌面研究、产品对比研究、行业数据统计与行业规模推算输出相应研究成果。艾瑞咨询产业数字化研究部人工智能研究组报告撰写前言对此,艾瑞发布中国智能语音转写行业研究报告,从语音识别-智能转写产品角度出发,确立智能语音转写服务的范围定义,描绘智能语音转写服务的产业图谱3、与需求市场,梳理智能语音转写服务在 SaaS 软件服务及本地解决方案的不同产品形式、商业模式及厂商格局,并为中国智能语音转写行业的趋势发展提供分析判断,希望通过本报告,为读者呈现中国智能语音转写的产业发展背景、行业厂商动态、产品发展机遇的多维视角,欢迎各界探讨指正。32022.12 iResearch I摘要来源:艾瑞咨询研究院自主研究绘制。从技术趋势来看,语音识别技术的精度和速度仍取决于实际应用环境,面对“混合语种”“嘈杂环境”下的“多人”“交互”“重叠”等多重因素交织的复杂语音场景,语音转写技术应用仍有待突破;从场景价值来看,如今智能转写应用领域大多仅服务于从语音到文字转写内容的实现,未来4、转写应用可结合自然语言理解、机器学习、知识图谱等AI技术,拓展转写产品的场景边界,深入挖掘转写内容价值,以更高阶、智能的辅助替代角色,为客户提供问题预警、策略总结、决策分析等功能服务;从厂商策略来看,各家将以构建自身产品生态,加强外部场景合作为策略核心,基于自身企业特点选择差异化侧重,共同推进转写技术的应用渗透与市场发展。近年来,智能语音技术与互联网、企业服务、消费硬件、传媒、医疗健康等各行业的深度融合带来了新的用户需求增长和商业模式创新,创造产业经济价值、繁荣产业生态,算法模型、优质数据集与多样化应用场景助力产业规模走高。部分智能语音产品如语音助手、语音转写、智能客服等取得产品价值突破或商业5、上的显著成就,语音识别相关产品多已进入稳步上升期。但在细分产品的交互体验、使用效果、场景优化等方面仍面临长期求索。人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,仍然是一个宏伟的开放性课题。在人力成本、协同办公、传媒音视频、会展交流、跨国沟通等多重因素驱动下,中国智能转写市场不断注入需求活力,2021年中国智能语音转写市场规模已约为10亿元。未来,随着智能转写的技术突破、功能丰富及场景泛化,智能转写市场规模将加速上扬,预计2026年市场规模将达到38亿。从产品形态来看,智能转写产品主要包括SaaS类产品与本地化部署解决方案两大类。其中,SaaS市场头部聚集效应显著,讯飞听见与6、搜狗听写位列第一梯队,讯飞听见在转写准确率尤其是小语种和方言等、产品丰富度、品牌影响力和发展潜力维度拔得头筹。未来,SaaS形式API调用与垂类解决方案将形成合力,构成智能语音转写产业既快且稳的增长飞轮,高生态活性加硬解决方案实力的企业将更能突出重围,抢占更多增量市场。语音识别产品早期主要是语音听写,即用户说一句、机器识别一句;后来发展成语音转写,更聚焦于人人交流场景。智能语音转写是可以支持长音视频的语音转文字服务,附加产品服务、多语种翻译、内容分析等智能化功能,满足用户在会议、庭审、采访、直播、视频制作、客服质检等场景中的实时与非实时语音转写需求。随着语音识别准确性及效率的提升、多语种与方言7、转写服务丰富,以及上下文纠正、标点过滤、自定义热词配置、声纹角色分离、语音内容分析提取等功能的逐步优化,智能语音转写服务的商业化落地与多场景复用持续推进,成为语音识别产品的“排头兵”。智能语音产业发展智能语音转写产品智能语音转写市场智能语音转写趋势洞察4智能语音转写行业发展背景篇1智能语音转写行业市场分析篇2智能语音转写行业典型企业案例3智能语音转写行业发展趋势篇452022.12 iResearch I智能语音产业的宏观背景数字信息输入输出的重要载体,人工智能产业落地“先锋军”智能语音技术指通过声音信号的前端处理、语音识别(ASR)、自然语言处理(NLP)、语音合成(TTS)等技术形成完整的8、人机语音交互流程,是实现人与机器交流的纽带,也是数字信息输入与输出的重要载体。近年来,智能语音技术与互联网、企业服务、消费硬件、传媒、医疗健康等各行业的深度融合带来了新的用户需求增长和商业模式创新,创造产业经济价值、繁荣产业生态。智能语音产业的迅速发展促进了我国数字经济发展、提高了社会治理的智能化水平、推动了我国人工智能技术创新的战略突破。作为人工智能产业落地的“先锋军”,智能语音产业得到了国家和地方政策的有力支持,且随着参与者不断进入智能语音赛道,“百舸争流,千帆竞发”,产业技术水平和产品竞争力不断提高。来源:艾瑞研究院根据公开资料自主研究绘制。发布日期相关机构重点内容2022-05国务院办9、公厅强化科技赋能,进一步加强12345平台和网上12345能力建设,开发智能推荐、语音自动转写、自助派单功能2021-11工信部工业和信息化部批复组建国家智能语音创新中心,将围绕多语种语音识别、语音合成、语义理解和专用人工智能语音芯片等研发方向,构建集共性技术研发、测试验证、中试孵化和成果转移转化于一体的创新平台2021-01国务院办公厅提出加强自助下单、智能文本客服、智能语音等智能化应用,方便企业和群众反映诉求建议2020-10工信部鼓励智能家居产品普及语音控制功能,推动基于智能语音识别技术的智能音箱、智能可穿戴设备及其他智能家电产品开发,老年人可通过语音方式实现便捷化操作2019-02最高10、人民法院全面提升语音识别技术在庭审语音同步转录中的应用效能,建成全国法院智能语音云平台,实现全国法院语音识别的模型共享和统一管理2018-04国务院办公厅开展智能医学影像识别、病理分型和多学科会诊以及多种医疗健康场景下的智能语音技术应用,提高医疗服务效率2017-07科技部公布了首批国家新一代人工智能开放创新平台,包括自动驾驶、城市大脑医疗影像和智能语音2017-07司法部大力发展电子公证、法律服务智能保障等业务模式,推进人工智能语音热线和社交网络法律服务机器人技术研发,促进公共法律服务提档中国智能语音产业典型应用场景及政策汇总(部分)传媒制作智能机器人智能客服智能家居协同办公62022.1211、 iResearch I智能语音产业的市场规模2022年智能语音市场规模达215亿元,产业规模持续走高近年来,我国人工智能产业维持稳步增长态势;其中,智能语音产业基于语音识别等算法模型突破、优质数据集积累和丰富的下游应用场景创新,已进入规模化深耕阶段。我国头部智能语音企业、大型互联网企业等纷纷以“开放平台+垂直赛道”的发展模式,一方面通过语音开放平台为各行业开发者提供智能语音技术支撑,协作场景与产品创新,助力产业规模增长;另一方面凭借各自在消费硬件、协同办公、视频直播等领域的行业理解与用户生态,持续拓展智能车载、娱乐传媒、协同办公、智慧医疗、在线教育、智能家居等垂直行业赛道,以语音为信息的出入12、口,构建泛语音产业生态集群。2022年中国智能语音产业规模可达215亿元且维持较高增速,预计到2026年产业规模可达469亿元。注释:智能语音典型产品包括对话机器人、智能硬件中的AI语音助手以及教育、医疗、司法、公安、互联网等垂直行业中的智能语音产品及应用。来源:艾瑞咨询研究院根据专家访谈,结合艾瑞统计模型自主研究绘制。2019-2026年中国智能语音产业规模7710915921527233139646941.6%45.9%35.2%26.5%21.7%19.6%18.4%-1 5 0.0%-1 0 0.0%-5 0.0%0.0%5 0.0%1 0 0.0%01 0 02 0 03 0 04 13、0 05 0 06 0 07 0 08 0 02019202020212022e2023e2024e2025e2026e智能语音产业规模(亿元)智能语音产业增速(%)CAGR=16.9%72022.12 iResearch I智能语音产业的产品成熟度语音识别相关产品多已进入稳步上升期人类对机器语音识别的探索始于20世纪50年代,迄今已逾70年。2016年,在深度神经网络的帮助下,机器语音识别准确率第一次达到人类水平,意味着智能语音技术落地期到来。后随着近场语音识别准确率提升、远场语音识别和唤醒发展、全双工语音交互出现、基于NLP的对话和问答能力逐渐成熟、知识图谱技术助力对话引擎以及针对实际应用14、中的算法优化,智能语音技术的落地可用性不断突破。但其背后涉及的声学研究、模式识别研究、通用NLP研究及垂直场景的深度语义理解等还未成熟到拼成一个没有明显短板的“木桶”。因此尽管部分智能语音产品如语音助手、语音转写、智能客服等已取得了产品价值突破或商业上的显著成就,但在细分产品的交互体验、使用效果、场景优化等方面仍面临长期求索。人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,仍然是一个宏伟的开放性课题。来源:艾瑞咨询研究院自主研究及绘制。2022年中国智能语音产品成熟度曲线分布阶段表示智能语音相关技术的一阶产品,可衍生出各细分领域的产品应用。如智能客服+金融、基于语音助手的智能15、音箱等表示智能语音技术二阶产品,如基于语音识别技术的智能语音转写产品、基于语音合成技术的语音播报等智能客服产品成熟度萌芽探索期落地实践期飞跃发展期稳步上升期生产成熟期语音识别智能语音开发平台语音芯片声纹识别语音输入法语音转写智能车载语音助手生成式AI(音频)语音审核智能消费硬件语音合成语音播报自然语言处理技术落地初期阶段,产品成熟度较低产品普及率提升,成熟度曲线处于缓慢爬坡期产品规模化应用,成熟度快速增长成熟度趋于稳定,产品及服务差异化竞争阶段成熟度稳定阶段。但技术若出现跨越性突破,产品或回到飞跃发展阶段82022.12 iResearch I智能语音转写的定义与分类语音识别产品的重要输出形态16、,分为实时与非实时语音转写语音识别产品早期主要是语音听写,即用户说一句、机器识别一句;后来发展成语音转写,更聚焦于人人交流场景。智能语音转写是可以支持长音视频的语音转文字服务,分为实时语音转写与非实时语音转写,可为信息处理和数据挖掘提供基础。适用于线上线下会议记录转写、影视字幕制作、媒体新闻工作、会议翻译等多个应用情境。作为数字化劳动力,解决刚需问题,有效提高办公效率。随着语音识别准确性及效率的提升、多语种与方言转写服务丰富,以及上下文纠正、标点过滤、语气词过滤、自定义热词配置、声纹角色分离、语音内容分析提取等智能化服务功能的逐步优化,智能语音转写服务的商业化落地与多场景复用持续推进,成为语音17、识别产品的“排头兵”。来源:艾瑞咨询研究院自主研究及绘制。0102实时语音转写智能语音转写产品定义与分类实时语音转写(流式上传-同步获取):实时语音转写可将不限时长的音频流实时识别为文字,并返回带有时间戳的文字流;可用于直播实时字幕、实时会议记录;也可配合机器翻译,实现同传功能。非实时语音转写非实时语音转写(已录制音频文件上传-异步获取):非实时语音转写将长段音频数据转换成文本数据。可用于影视字幕制作、会议访谈记录转写、智能客服录音质检等场景。语音识别作为智能交互中的一环,进行语音识别,让机器“理解”人类说的话语,而非以识别为最终产品目的语音转写:支持长音视频的语音转文字服务,可为信息处理和数18、据挖掘提供基础。92022.12 iResearch I语音识别系统技术架构实现对声音波形序列的识别,得到相应的单词或者字符序列智能语音转写产品的核心是语音识别系统,需实现对给定的声音波形序列的识别,得到相应的单词或者字符序列。语音识别系统由信号处理和特征提取、声学模型(Acoustic Model,AM)、语言模型(Language Model,LM)和解码搜索共四部分组成。识别过程首先对音频流进行处理,通过消除噪声和信道失真对语音进行增强,然后分割声音片段并转换成一系列数值,通过声学模型识别数值,最终利用语言模型解码搜索匹配得到最优的词序列作为识别结果输出。声学模型和语言模型的获得需对预先19、收集好的海量语音、语言数据库进行信号处理和知识挖掘训练。解码过程中还存在一个“自适应”反馈模块,可对用户的语音进行自学习,从而对模型进行校正,进一步提高识别准确率。来源:艾瑞根据CSDN等公开资料整理研究绘制。信号处理和特征提取解码搜索声学模型语言模型智能语音转写产品核心语音识别系统的技术结构音频信号声音特征语言模型得分识别结果信号处理和特征提取:以音频模拟信号输入,将其转为数字信号,提取声音特征,供声学模型提取合适有代表性的特征向量。Step1Step2声学模型将声学和发音学(Phonetics)的知识进行整合,以特征提取部分生成的特征为输入,并为可变长特征序列生成声学模型分数。语言模型通过20、训练语料/数据(通常是文本形式)学习词之间的相互关系,来估计假设词序列的可能性,找出该声音特征最有可能对应的文字序列。Step3解码搜索:对给定的特征向量序列和若干假设词序列计算声学模型分数和语言模型分数,将总体输出分数最高的词序列作为识别结果。声学模型语言模型打开空调 0.95大凯空调 0.70大楷空条 0.35da kai kong tiao0.85 0.950.700.85da kai zhao ming0.85 0.950.200.15声学模型得分102022.12 iResearch I语音识别技术发展历程声学模型突破引领技术商业落地进程从最初的基于孤立词的小词汇量语音识别系统,到目21、前的基于大词汇量的连续语音识别系统,语音识别技术取得了显著的进展。语言模型主要基于传统的N-Gram方法(一种基于统计语言模型的算法)进行统计匹配。虽然目前也有深度神经网络的语言模型的研究,但在实用中主要还是更多用于后处理纠错。或加入NLP Embedding模型,联系上下文,以提升语音识别结果准确率。而纵观其技术落地的突破路径,对于声音模型的研究优化是实现产品性能提升的主旋律。声学模型是语音识别系统的重要组成部分,占据着大部分的计算资源并决定着语音识别系统的性能。2009年随着深度学习技术发展,基于DNN-HMM的语音声学模型成为主流,语音识别因此取得了突破性进展;此后,不同的网络结构组合以22、及优化策略极大提升了声学模型的性能,如端到端的识别模型、粗粒度的建模单元、更复杂的深度神经网络等。来源:艾瑞研究院根据公开资料自主研究绘制。语音识别技术中声学模型的突破路径u深度神经网络方法主导2006至今u概率统计方法主导1970s2006u模板匹配方法主导 1970s模板匹配识别:提取语音信号的特征构建参数模板,将测试语音与参考模板参数进行比较匹配,取距离最近的样本所对应的词标注为该语音信号的发音。该方法可有效解决孤立词识别,但难以实现大词汇量、非特定人连续语音识别。概率统计识别:隐马尔可夫模型(HMM)和 高 斯 混 合 模 型(DMM)。GMM-HMM框架中,GMM用于对语音声学特征的23、分布进行建模,HMM则用于对语音信号的时序性进行建模。自上世纪90年代语音识别声学模型的区分性训练准则和模型自适应方法被提出以后,语音识别进入缓慢发展期。2006年:深度学习进入发展元年。2019年,Hinton将DNN应用于语音的声学建模;2011年底,微软研究院将DNN技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此语音识别进入DNN-HMM时代。此外LSTM(递归神经网络模型)具有长短时记忆能力,整体性能比DNN有相对20%左右稳定提升2015-2017:基于端到端识别模型可去除HMM,直接从声学特征输入就可以得到识别的词序列,进一步提升语音识别准确率及解码速度。224、017年以后:随着各种深度神经网络以及端到端技术的兴起,业界厂商纷纷发布及持续优化各自声学模型结构。语音识别准确率持续提升。以科大讯飞为例,2010年中英文识别准确率只有60%左右,而在2021年8月,科大讯飞厂商的中英文转写准确率已突破98.33%。112022.12 iResearch I智能语音转写的需求场景以转写功能为基础,满足细分场景需求,构成丰富产品形态自从以远场语音技术落地为代表的智能音箱产品规模化应用、深度神经网络下的声学模型研发创新进入平稳发展期后,语音识别赛道的产业竞争已经从标准环境下的算法研发比拼,过渡到了在真实细分需求场景下如何满足用户体验的竞争。智能语音转写产品也遵循25、这一赛道特征,以语音转文字功能为基础,附加产品服务、多语种翻译、内容分析等智能化服务功能,满足用户在会议、庭审、采访、直播、视频制作、客服质检等场景中的实时与非实时语音转写需求。智能语音转写产品具备丰富的产品形态,可应用于娱乐传媒、在线教育、会议会展、同传等多行业领域,帮助提升企事业单位办公人群、学生、自媒体从业人员、翻译专业人士等各类群体的工作效率。来源:艾瑞研究院根据公开资料自主研究绘制。智能语音转写产品的需求场景转写功能语种翻译产品服务内容分析实时场景非实时场景提供会议记录及会后整理,可附加会议软件等产品功能提供字幕转写服务,可附加音视频编辑相关产品功能提供语音转写服务,在多语种环境下,26、附加实时/非实时翻译功能提供人机耦合服务,译员配合智能转写内容优化最终产出提供语音转写服务,对转写文本进行内容追踪、实时提醒、处理分析、风控质检等等操作实时会议记录实时直播字幕实时庭审记录实时客服记录会议纪要总结音视频字幕编辑庭审数据录入黄暴等语音质检对响应时间要求更高,需进行模型蒸馏与模型优化对响应时间要求相对较低,可通过闲时转写实现需求错峰实时采访转写实时会议同传课堂录音分析电话销售/客服122022.12 iResearch I智能语音转写的价值意义存量助力人工转写市场,增量释放更多潜在场景需求传统人力转写市场依赖经验丰富的速录师与人工转写团队,成本相对高昂,而随着智能语音转写产品的规模27、化落地应用,该类存量市场可借助智能转写产品,实现对人工转写的有效辅助及优化,为下游客户提供更高质效的人机耦合服务;此外,转写应用仍有更大规模的潜在市场需求待挖掘,原受限于渠道、价格等因素,转写产品多应用于有垂类转写需求的小众应用领域,而智能语音转写产品逐步让转写应用实现泛化,市场边界也将逐步扩散,未来智能语音转写产品有望开发更多潜在增量市场,撬动可用智能转写产品满足的长尾需求,进一步优化用户的应用体验。来源:艾瑞研究院根据公开材料自主研究绘制。智能语音转写产品在助力转写人力基础上,可满足更多潜在、可被优化的转写场景需求。智能语音转写产品意义1)优化传统转写人力服务2)满足更多潜在可被优化需求增28、量市场存量市场本身场景存在潜在转写需求,但人力实现需要高成本或原本人力难以做到,而智能转写产品可开发该类潜在增量市场,释放更多产值规模。传统人工转写费时费力,且转写质量与个人能力高度挂钩,可借力智能转写产品提高存量市场的转写服务渗透率。通过智能语音转写产品撬动更多长尾需求例:个人办公场景,有会议内容的潜在转写需求,出于时长与精力考量不会自做,出于成本考量不会外购,但可通过智能语音转写产品获得优质高效、兼具性价比的转写服务。例:沟通交流场景,在多语种、方言沟通的日常交流环境中,存在潜在语音转写需求,可通过转写产品跨越语言障碍,实现高效沟通。13智能语音转写行业发展背景篇1智能语音转写行业市场分析29、篇2智能语音转写行业典型企业案例3智能语音转写行业发展趋势篇4142022.12 iResearch I智能语音转写产业图谱来源:艾瑞根据公开资料自主研究绘制。下游应用领域2022年中国智能语音转写产业图谱办公场景传媒场景电商直播翻译场景上游基础设施层产品及解决方案提供商服务器云服务数据服务开源模型智能语音企业云服务厂商专业转写/翻译厂商C端用户B端企业G端政府其他场景152022.12 iResearch I智能语音转写的发展驱力(1/5)智能语音转写可化解人工成本走高与质量要求提升的发展矛盾近十年来,中国人口增势放缓,劳动人口红利见顶,供应结构性短缺致使企业人力用工成本不断攀升。根据国家统30、计局数据,2020年中国租赁和商务服务业城镇单位就业人员平均工资已达到92924元,相比十年前涨幅已达到1.35倍。人工转写成本的大幅上涨为转写行业带来更多价格压力。此外,随着转写场景的泛化升级,转写需求渗透到各行各业,转写内容专业度也不断提升,具备行业背景知识的转写译员更成为市场供给侧的稀缺人力资源,且转写交付水平存在不稳定性,与个人服务能力高度挂钩。在此发展背景下,转写市场亟需智能语音转写产品,以辅助优化人工转写产品的角度切入,提供低成本、高质量、具备稳定交付水平的转写服务,满足更多市场需求缺口。3956646976531626253867131724897678281393851478831、1909292418.7%13.2%17.6%7.3%8.0%5.9%6.0%4.6%3.6%5.4%20102011201220132014201520162017201820192020租赁和商务服务业城镇单位就业人员平均工资(元)平均工资增长率(%)2010-2020年中国租赁和商务服务业城镇单位就业人员平均工资情况来源:国家统计局,艾瑞研究院自主研究绘制。162022.12 iResearch I2022.12 iResearch I智能语音转写的发展驱力(2/5)企业协同在线办公常态化,助力转写功能实现更多用户触达2020年初,受疫情影响,很多企业无法按时复工复产,远程办公成为维持社32、会经济正常运行的重要平台应用,用户需求显著提升,视频会议、电话会议、在线文档编辑等远程协作功能得到更广泛应用。根据中国互联网络发展统计报告数据,2022年月中国在线办公用户规模已跃升至4.7亿,相比2020年6月增长幅度高达131.4%。如今疫情仍在延宕反复,随着用户在线协同办公习惯的逐渐养成,远程协同办公或将成为常态化运营工具,持续推动企业数字化转型。而相较于硬件录音与录音应用的产品形式,会议应用无需用户购买录音设备或额外开启录音应用即可触达转写服务,提供了更直接的应用切入点,助力转写功能在办公场景实现更广泛的用户触达。来源:中国互联网络发展统计报告,艾瑞研究院自主研究绘制。来源:艾瑞研究院33、自主研究绘制。2018年6月-2022年6月中国在线办公用户规模及使用率2.0 3.5 3.8 4.7 4.6 21.2%34.9%37.7%45.4%43.8%2020.62020.122021.62021.122022.6用户规模(亿人)使用率(%)办公场景对智能转写产品的需求分析录音应用硬件录音会议应用转写产品办公场景e.g.录音笔e.g.语音备忘录e.g.腾讯会议、讯飞听见专业办公人士,高频录音场景,对会议转写有强需求,需要额外硬件设备提供在线/离线转写服务。会议APP提供远程会议平台,通过会议APP录制音视频,为转写产品提供直接功能切入点。通过手机或电脑的录音软件录音,随后将录音文件34、上传至平台或APP,完成录音文件转写。需要硬件设备 需要额外录音 搭载办公会议平台相较传统需要录音笔与录音应用的场景,协同在线办公平台及会议应用让转写功能触达到更多办公人群,应用渗透率进一步提升。172022.12 iResearch I2022.12 iResearch I智能语音转写的发展驱力(3/5)网络视频兴起,为转写产品开拓更多应用空间随着数字技术与互联网技术的普及,网络视频快速发展,短视频因满足用户高涨的碎片化娱乐需求而迎来一拨爆发式增长,进一步提升用户对整体网络视频领域的关注度与渗透率。如今网络视频已然成为人们生活娱乐、了解信息的重要组成形式。根据中国互联网络发展统计报告数据,235、022年6月,中国网络视频用户规模已经达到9.9亿人,占全部网民的94.6%。作为网络视频的供给方,自媒体工作者、长视频内容编辑方均对视频内容的字幕转写具备强需求,一方面字幕可帮助用户更好观看视频内容,并在静音模式也不影响观看;另一方面字幕转写还可提供翻译功能,助力网络视频在国际环境下的推动传播;此外,对于平台监管方来说,语音转写可服务于平台内容监控需求,及时进行内容管理,避免网络直播及视频带来的合规风险。综合来看,网络视频的长足发展为转写产品开拓了更多市场应用空间。来源:中国互联网络发展统计报告,艾瑞研究院自主研究绘制。来源:中国互联网络发展统计报告,艾瑞研究院自主研究绘制。7.1 7.2 36、7.6 8.5 8.9 9.3 9.4 9.7 9.9 88.7%87.5%88.8%94.1%94.5%93.7%93.4%94.5%94.6%2018.62018.122019.62020.32020.62020.122021.62021.122022.6用户规模(亿人)使用率(%)2018年6月-2022年6月中国网络视频(含短视频)用户规模及使用率网络视频对智能转写产品的需求分析自媒体多语种转写长视频编辑语音内容监控服务于内容生产用户,智能切分时间轴。生成带时间戳的转写字幕内容,支持在线编辑调整,极大提升自媒体工作者的字幕配置效率。为外语视频提供转写及翻译服务,可根据需要配置专业翻译团37、队,实现高效人机耦合,完成多语种的字幕制作及翻译需求。服务于长视频编辑工作者,例如电影、纪录片等,长视频的语音转写更强调上下文联系及方言理解,对语音技术提出更高要求。实时转写可实时识别直播内容风险,并给出及时警告提示;非实时转写可对平台内容进行进一步甄别提示。182022.12 iResearch I2022.12 iResearch I智能语音转写的市场环境(4/5)会展双线融合举办不断提升,SaaS转写产品需求走高在2020年以前,会展行业多在线下举行。面对国际语言的交流环境,会展行业的字幕转写产品大多采用线下人机耦合的服务模式,即专业的语音转写服务团队与硬件机器设备相结合,为会展交流提供38、字幕上屏、多语种同传等的现场会议服务。而在疫情多点散发的情况下,会展活动的举办面临很多不确定性因素。根据中国会展主办机构数字化调研报告显示,2021年,疫情导致各类会展活动取消、延期、异地举办,会展活动选择线上线下相结合模式举办成为常态。字幕转写产品形态也由原来线下的人机耦合形式逐渐倾向于线上SaaS服务形式,并可配合线上人工智能服务团队或翻译团队提供实时校验服务。此外,SaaS产品形态的需求延伸进一步丰富转写产品的客群覆盖度,除会展举办方外,更多C端用户也可通过SaaS转写及翻译产品满足个人国际参会、实时翻译的会展需求。2021年中国会展主办机构办展办会方式注释:N=195。来源:DRCEO39、:中国会展主办机构数字化调研2022,艾瑞咨询研究院整理及绘制。2021年中国会展主办机构调研主要数据注释:N=195。来源:DRCEO:中国会展主办机构数字化调研2022,艾瑞咨询研究院整理及绘制。根据调研显示,近70%的主办机构选择双线融合办展的方式,线上线下结合已成为会展常态。u双线融合办展趋势31.3%的机构认为数字化转型是大方向,超过50%的机构已经开始数字化转型尝试。u数字化转型方向根据调研显示,超过60%的会展机构能获得各位数字化收入。但数字化收入占比有待提升。u数字化收入占比超过90%的机构对数字化转型呈积极与乐观态度,该比例相较于2020年提升6个百分点。u数字化转型态度7340、5083271022131483320214910161纯线下举办纯线上举办线上+线下相结合举办1-3场(个)4-5场(个)6-10场(个)10场以上(个)以上均没有举办(个)线上会展成为线下举办的延伸助力,线上+线下呈现深度融合的发展趋势192022.12 iResearch I2022.12 iResearch I智能语音转写的市场环境(5/5)转写产品助力解决出海生态下的复合型翻译人才需求近年来虽然新冠疫情反复、地缘冲突加剧,全球经济发展变数频发,但中国企业出海浪潮已逐渐越过探索期,在视频、游戏、电商、企业级SaaS服务等各领域催生出“出海繁荣”。2021年,中国对外直接投资净额178841、.2亿美元,比上年增长16.3%,连续十年位列全球前三,且超越出现统计数据以来首次负增长的2017年绝对值。目前,由于海外市场仍处于高速增长阶段且出海市场各赛道集中度不高,我国出海行业仍具有极大潜力,在企业业务运营、跨国交流等领域对复合型翻译人才需求较大。根据中国翻译协会调研,高级翻译人才稀缺、非通用语种人才匮乏、高校教育与实际工作需求脱节、无法满足多个专业领域翻译需求是翻译行业面临的发展难点。在此背景下,智能语音转写产品的翻译及同传功能,不仅能有效提高翻译工作者的工作效率,同时人机耦合的形式也使各领域的非翻译专业人才具备完成业务需要翻译工作的可能性。来源:商务部、国家统计局和国家外汇管理局,42、艾瑞研究院绘制。来源:中国翻译协会2022中国翻译人才发展报告,艾瑞研究院绘制。2016-2021年中国对外直接投资净额1582.9 1430.4 1369.1 1537.1 1788.2-19.3%-9.6%-4.3%12.3%16.3%20172018201920202021中国对外直接投资净额(亿美元)增长率(%)2021年中国复合型翻译人才需求情况31%27%13%8%8%7%6%外交学、国际关系新闻传播类理工及其他专业法学类经济学类哲学类、中国语言文学类电子信息类、管理科学与工程类202022.12 iResearch I智能语音转写的行业规模需求活力持续注入,预计2026年市场规模43、达38亿目前,智能转写产品率先在办公会议、传媒音视频、会展交流等领域展开应用,用户接受度日益成熟。据艾瑞研究院统计测算,2021年中国智能语音转写市场规模已约为10亿元。未来,随着智能转写的技术突破、功能丰富及场景泛化,智能转写市场规模将加速上扬。此外,转写产品可结合NLP、知识图谱技术在单纯转写内容的基础上升级为分析策略的输出层级,释放更多价值势能,预计2026年中国智能语音转写行业市场规模将达到38亿元,2021-2026 五年CAGR=30.7%。来源:艾瑞研究院根据桌研与专家访谈自主建模测算。2021-2026年中国智能转写行业规模10131722293828.3%29.9%31.1%44、32.9%31.4%20212022e2023e2024e2025e2026e智能转写行业规模(亿元)智能转写行业规模增长率(%)212022.12 iResearch I智能语音转写的参与者类型以语音技术、产品生态、细分领域为多样立足点根据参与厂商的市场立足点划分,智能语音转写赛道的玩家可分为语音技术厂商、云服务厂商与专业转写及翻译服务商。其中语音技术厂商在语音识别能力、转写服务水平上具备先发优势,且投入足够精力进行技术研发与产品打磨,产品化能力优秀,现占据智能语音转写市场的主流厂商地位;而云服务厂商的转写能力对内服务于内部产品的转写功能需求,对外多选择开放语音转写能力达成外部合作以丰富平台45、生态,垂直于转写的产品化能力较弱;专业转写及翻译厂商通常以细分领域切入,深耕于办公、翻译、传媒等某个细分领域,在垂类市场提供精细化、客制化产品及解决方案,满足细分客户的转写服务需要。来源:艾瑞研究院自主研究绘制。智能语音转写参与者类型分析以语音技术切入以产品生态切入以细分领域切入语音技术厂商云服务厂商专业转写/翻译厂商强于语音识别能力,为客户提供语音转写接口、SaaS产品及全套解决方案等多样化转写产品形式。除软件服务外,硬件设备是触达用户的核心端口,部分语音技术厂商选择从AIoT领域切入,依托于智能耳机、智能录音笔、智慧屏等智能硬件产品进一步开拓转写应用场景传统转写或翻译服务商,持续积累垂直转46、写需求客群,顺应智能转写技术发展,切入细分领域,提供人机耦合的优化产品服务。依附公司产品生态,见长于平台化能力,在办公、泛娱乐、教育等场景搭配软硬件产品输出转写能力,一般分为对内与对外服务厂商代表:科大讯飞、搜狗听写、思必驰、捷通华声厂商代表:阿里云、腾讯云、百度云、火山引擎厂商代表:网易见外、迅捷语音222022.12 iResearch I智能语音转写的产品形态包括SaaS类产品及本地化部署解决方案,均可结合智能硬件智能语音转写服务的产品形态主要包括SaaS类产品与本地化部署解决方案两大类。以SaaS类产品为主,其核心是提供云端语音识别及转写服务,根据客户分类与应用情景差异,包括轻量级的网47、页版/APP/PC/小程序产品和提供给B/G端客户的API开发接口。SaaS类产品的主要特点是价格相对便宜、便捷度较高;而本地化部署的解决方案主要是为了满足客户的安全隐私与定制化需求,例如接入到政企内部办公平台等,需要服务商具备定制化开发能力。此外,为了提升语音采集的质量及多样化的移动应用场景,头部厂商如讯飞听见、搜狗听写等开发了种类丰富的功能性智能转写硬件,如录音笔、麦克风、智慧屏等,可提供云端或本地转写、录音、存储、编辑一体服务。来源:艾瑞研究院根据公开资料自主研究绘制。智能语音转写产品形态提供单机版软件/私有化部署SDK接口,在本地可运行语音识别及转写能力。满足客户的定制化需求与安全隐私48、需求,但部署成本高,主要面向对数据安全需求较高的大型企业或公检法、广电传媒等政府客户通过硬件内置芯片与本地词库,提供本地/离线转写服务。满足对数据及网络安全、便捷性及移动办公等需求。移动端转写能力与实用性的提升,扩充转写功能的适用范围SaaS类产品本地化部署解决方案通过Web/APP/PC/小程序等提供云端语音识别及转写服务,主要服务于C端客户或企业账户,企业账户或具备空间管理、协同编辑等增值服务。通过行业词库和模型优化,产品可满足传媒、教培、金融、客服等多场景应用需求以录音笔、麦克风、智慧屏等语音采集硬件为依托,调用云端语音识别及转写能力利用麦克风阵列,通过声学技术保障拾音效果,以提升语音采49、集精准度。软硬一体形式提升转写质量及效率,并满足会议、访谈等多类型需求场景丰富消费级智能硬件产品形态,提高产品售价、促进营收增长智能硬件价值点提供封装语音转写能力的API接口。下游应用开发商和手机、录音笔等智能终端厂商可进行集成232022.12 iResearch I智能语音转写的收费模式与用户画像知识密集行业用户的办公效率提升利器,下游客户类型丰富1)SaaS产品的前期投入主要集中于产品研发以及固定的IT支出,得益于其能够同时为多租户提供服务的特性,使得SaaS的边际成本极低。这既给SaaS厂商带来了相当可观的边际利润,也让厂商在面对同类竞争时得以在价格上做出更多让步。对于C端客户的语音转50、写服务需求,产品提供方在早期一般采取低价或免费试用时长的模式集聚用户,占领用户心智,迅速做大用户量。后期营收增长依赖满足准确率与实时率下的刚需客户续费率、深耕多样化场景以拓宽潜在客户市场、软硬一体的智能硬件产品拉高营收等;而企业客户的价格敏感度则相对较低,更关注转写精准度和实时性体验等。对于远程会议、视频剪辑、CRM等下游应用,则多将语音转写作为附加功能提供增值服务,用户可付费解锁。2)本地部署解决方案可满足政企客户的定制化与安全隐私需求。但部署成本高,项目制报价形式涵盖软件服务、实施与运维、硬件设备等费用。客户在关注转写效果的同时,亦关注安全性、驻场训练语料、设备安装等实施及售后服务能力。来51、源:艾瑞研究院根据公开资料自主研究绘制。智能语音转写产品的收费模式与用户画像免费应用后向广告收费按照时长和并发计费SaaS类产品单笔订单单笔付费按月/年订阅制储值卡(时长)企业账户附加功能转写服务转写能力接口一次性license智能硬件硬件付费+软件服务免费本地部署解决方案个人用户画像:主要是学生、媒体工作者、IT/金融办公人群等。主要来自于一二线城市的知识密集型行业。其中PC端使用者多为有强办公需求的企事业单位用户,更重电脑音频编辑企业账户画像:主要集中于影视剧后期、教培机构等企业账户基础收费模式同上,开通空间管理、协同编辑等增值服务赋能下游手机、录音设备等硬件厂商单机版软件费用项目制报价硬52、件设备费用免费使用转写、翻译等语言服务用户画像:主要面向政府、高校及大型企业。客户需要转写功能的对接与嵌入,对于数据安全、可拓展、灵活性要求更高,包括对需求响应的及时程度等私有化部署费用运维费用丰富的下游场景应用客户242022.12 iResearch I智能语音转写SaaS产品分析高便捷性、开箱即用、按需使用、快速响应及多场景优化1)基于SaaS的语音转写服务产品通过将音频文件上传至云端,由云端转写引擎进行识别、转写、纠错,完成实时或非实时的语音转写输出。终端用户可以在网页或者APP上获取结果,还可对结果进行编辑、分享、导出等操作。语音转写服务厂商通过多领域的语音转写模型优化和行业词库,迭53、代更新以提升不同应用场景下的转写准确率,服务多类型客户。随着云计算技术发展,目前云端算力和网络环境比较稳定,SaaS转写产品的转写准确率和效率与私有化部署解决方案的用户感知度差距不是特别显著。高便捷性、较低成本等优势使语音转写SaaS产品拥有庞大的终端消费群体。2)且SaaS形式的转写产品具有开箱即用无需维护、按需使用等特点,可被集成到下游应用软件或手机、智慧屏、录音笔、智能会议系统等各类硬件设备中。API转写引擎可支持远程会议、线上会展、电商直播、短视频、在线课堂等软件应用的纪要转写、字幕制作、同传翻译等功能,拓宽应用的产品服务边界。广泛的下游生态也有助于语音转写产品加速起量,扩大潜在市场空54、间。来源:艾瑞研究院根据公开资料自主研究绘制。付费方式灵活,可通过充值时长卡的方式随时使用转写服务或根据调用量及并发量订阅付费按需使用、成本较低进行语言模型和行业词库优化,满足多应用场景的客户转写需求。可应用于轻办公、会议会展、传媒、短视频直播、同声传译等领域针对多应用场景优化通过网络提供服务,用户可多设备、多渠道接入,随时访问;且数据储存在云端,实时同步高便捷性低时延,秒级甚至毫秒级处理返回语音识别结果,支持同传、直播等实时转写场景需求快速响应B端客户接入语音转写能力,可随时调用,模型及时迭代更新开箱即用、无需维护智能语音转写SaaS产品特点252022.12 iResearch I202255、.12 iResearch I智能语音转写SaaS产品发展环境云计算普及助力下游企业便捷应用语音转写服务智能语音转写SaaS产品的普及推广离不开我国云计算基础设施的建设和技术成熟以及企业数字化转型趋势。我国云服务市场规模不断增长,2021年中国整体云服务市场规模为3280亿元,同比2020年增加45.4%,根据艾瑞咨询推算,未来几年的增速仍维持在30%以上。企业对云计算的接受程度也在不断提高。中国信通院数据显示,2019年中国企业应用云计算的比例达到66.1%,较2017年增长11.4pct,企业在经历信息化阶段后开始向数字化转型。而在企业数字化转型过程中,可有效提高会议交流、字幕转写编辑、同56、声传译等场景办公效率的语音转写SaaS产品,具备交付灵活、使用便捷等优势,且可降低企业现金流压力,对泛互联网等各类企业的数字化转型和办公效率提升具有重要意义。来源:艾瑞咨询研究院自主研究推算及绘制。来源:中国信通院来源:信通院2020年云计算发展白皮书,艾瑞咨询研究院自主研究及绘制。2016-2025年中国整体云服务市场规模及增速45.3%41.4%33.9%54.7%58.6%66.1%201720182019没有云计算应用(%)有云计算应用(%)2017-2019年中国企业云计算使用率52169310261612225632804769681295501268332.1%33.2%48.157、%57.1%39.9%45.4%42.8%40.2%32.8%30.6%2016201720182019202020212022e 2023e 2024e 2025e整体云服务市场规模(亿元)整体云服务市场增速(%)262022.12 iResearch I智能语音转写SaaS产品竞争要素转写准确度和效率、产品丰富度是核心要素综合赛道特征,艾瑞咨询评估智能语音转写SaaS产品竞争要素包含:转写准确度与效率、产品丰富度、品牌影响力、价格优势、用户体量与生态、发展潜力六个方面。从客户选择产品的角度看,虽然不同客户类型和应用场景的需求会面临一定差异,但转写准确度和效率、产品丰富度是解决用户问题的第一58、前提;在此基础上,有价格优势、品牌影响力大的玩家更容易受到客户青睐。此外,用户体量与生态实力强、发展潜力大的产品市场竞争优势更明显。来源:艾瑞研究院根据公开资料自主研究绘制。智能语音转写SaaS产品竞争要素转写准确度与效率产品丰富度品牌影响力价格优势用户体量与生态发展潜力指该产品支持应用场景(会议、会展、同传、字幕等)、行业领域(金融、教育、零售、客服等)、产品形态(网页、APP、API/SDK调用、智能硬件等)的覆盖情况指该品牌产品的内/外部调用量和下游用户类型广度(消费者、企业级、政府客户等)指不同收费模式下的产品单位价格;C端消费者相对价格敏感度高评价产品功能水平的直接指标。除核心的语音59、识别准确率外,上下文纠正、语气词过滤、角色分离、热词设置等智能化功能可提高转写服务准确度指品牌开拓市场、占领市场、并获得利润的能力,核心评价维度来源于厂商端及用户端对品牌的直接评价及认可指该品牌产品的未来市场空间。基于其技术实力、产品化能力、服务水平及发展战略综合评估品牌影响力产品丰富度转写准确度与效率价格优势用户体量与生态发展潜力竞争要素转写准确度与效率和产品丰富度为满足各类用户需求的核心要素L1L2L3注:根据行业调研厂商表现,将竞争要素对应进行L1/L2/L3级评分272022.12 iResearch I智能语音转写SaaS产品竞争格局市场头部聚集效应显著,参与者致力差异化深耕现阶段,60、我国智能语音转写产品市场较为集中,讯飞听见和搜狗听写的头部效应明显;但在产品同质化压力下,参与厂商也均积极在转写的各细分专业领域、云端及本地化服务形式、附加产品形态与产品生态多角度进行差异化深耕。根据六大竞争要素,艾瑞咨询将市场上提供智能语音转写SaaS服务的厂商分为三个梯队,其中语音技术厂商讯飞听见和搜狗听写位列第一梯队。讯飞听见在转写准确度尤其是针对小语种和方言等、产品丰富度、品牌影响力、发展潜力维度拔得头筹。来源:艾瑞研究院根据公开资料自主研究绘制。智能语音转写SaaS产品竞争格局第一梯队第二梯队第三梯队长尾厂商厂商在各竞争维度优势明显具有一定的品牌影响力,或深耕C端用户运营推广,或依托61、品牌自有用户生态,或依托下游开发者生态推广相关业务。具备一定生态优势,但在多语种、方言等场景下的转写准确率可做进一步提升。受限于转写能力、产品丰富度等因素,客户市场份额较小。拥有一定价格优势,但在其余维度表现多有所不足。品牌影响力产品丰富度转写准确度与效率价格优势用户体量与生态发展潜力讯飞听见在转写准确度、产品丰富度、品牌影响力、发展潜力维度拔得头筹。282022.12 iResearch I智能语音转写本地部署解决方案产品服务升级,高安全性与定制化满足大型政企客户需求为满足大型企业及政府客户对安全性和定制化的需求,智能语音转写SaaS厂商升级产品和服务,提供私有化部署形式和软硬一体的产品解决62、方案。1)本地部署的纯软件解决方案与SaaS产品的功能类似,但私有化部署的独立服务器形式可保证客户对数据保密的安全性需求且架构自主;同时,语音转写能力提供商可针对客户提供的特定语料进行模型训练,满足客户的定制化转写需求,贴合用户业务场景,计算和执行效率更高。2)为了满足政企大客户的会议室、展会、传媒编辑等线下场景的智慧办公需求,软硬一体的语音转写解决方案可打包提供定制化拾音功能硬件、多语种语音转写与翻译能力、软硬一体化开发接口等;对于随身携带且有隐私要求的离线转写场景,一体机形式的语音转写设备则将硬件拾音、软件与服务集成在一起,无需联网,即开即用。来源:艾瑞研究院根据公开资料自主研究绘制。智能63、语音转写本地部署解决方案特点智慧屏会议系统办公专网提供的私有云固定会场的服务器部署u 产品服务升级支持离线转写场景架构自主数据保密安全需求定制化语料训练软硬一体的一站式方案移动办公的离线单机版产品私有化部署形式线下软硬一体产品292022.12 iResearch I智能语音转写产业的飞轮模型API经济与垂类解决方案共拓产业广度与深度平台类厂商开放平台API经济可拓展智能语音转写产业的广度,形成平台效应,利用下游开发者的创新活性带动市场发展,随开发者生态聚集带来庞大的下游规模经济效益;同时,垂类解决方案则延伸产业深度,聚焦刚需应用与高价值环节,延伸出了录音笔等智能硬件、协同办公会议应用、提取长64、时语音信息有效内容等多条增量建设与运营需求业务线。API经济与垂类解决方案两者合力,相辅相成,形成智能语音转写产业既快且稳的增长飞轮。在此基础上,高生态活性加硬解决方案实力的企业更能突出重围,抢占市场。来源:艾瑞研究院根据公开资料自主研究绘制。智能语音转写产业的飞轮模型深度垂类解决方案核心竞争力软硬一体占据高价值环节,形成应用流量入口:围绕语音转写需求场景的核心痛点,录音笔、智慧屏、智慧会议系统等入口级智能硬件可延伸出多条增量建设与运营需求业务线,提供想象空间刚需高频应用增肌造血:为转写技术找到可打磨的场景,如协同办公、电商直播等,结合场景Know-How反哺技术研发,形成良性闭环API产业活65、力与不设限空间规模效益与高毛利:SaaS产品利用率更高、单位成本降低。轻量化的输出模式可以持续低成本、短账期促进营收增长平台效应:聚合合作伙伴,扩大影响力并实现语音转写技术下沉,塑造产业生态保持活性:构建动态更新的产品服务池,利用偏C端活性带动B、G端需求,拓宽企业级客户增长广度业务飞轮30智能语音转写行业发展背景篇1智能语音转写行业市场分析篇2智能语音转写行业典型企业案例3智能语音转写行业发展趋势篇45312022.12 iResearch I讯飞听见科大讯飞成立于1999年,是亚太地区知名的智能语音与人工智能上市企业,讯飞听见是科大讯飞旗下主打“AI+办公”的子品牌,为客户提供以语音转文字66、及多语种翻译为核心功能的智慧办公服务。依托公司深耕多年的自然语言处理、声纹识别、语音识别、翻译等核心技术,讯飞听见的产品化能力也愈发成熟,打磨出平台服务、会展传媒服务、智能硬件产品、行业解决方案四条核心产品线,布局逐步完善,覆盖广泛下游应用场景,助力C端、B端及G端提升工作效率,实现高效知识管理。来源:艾瑞研究院根据公开资料、公司官网自主研究绘制。讯飞听见转写产品线科大讯飞旗下“AI+办公”品牌,聚焦语音转写及翻译市场、平台服务 聚焦服务办公领域,在会议纪要整理、远程视频会议、跨国语言交流等场景,助力力企业高效完成办公系统智能化升级。智能硬件产品 AI加持,软硬件一体,以转写文字及翻译为核心功67、能的智能硬件,无缝连接讯飞听见网站、App、客户端,支持多种语言、方言,可有效提升学生在校学习和职场人办公记录效率。会展传媒服务 提供“采编播审存”一整套流程的产品;为长短视频剪辑工作者提供字幕转写产品;为会展行业提供线下一体机、线上SaaS服务的同传服务;基于转写服务为会展传媒行业打造可持续的AI应用生态圈。行业解决方案 以语音识别、机器翻译、语义理解、OCR识别等能力为基础,萃取“非结构化数据”,拓展数据维度,构建知识管理体系,辅助高效决策。为政府、企业用户打造贯通会前、会中、会后的智慧办公解决方案。讯飞听见(转写)讯飞听见翻译讯飞听见会议讯飞听见同传讯飞听见字幕讯飞听见媒体解决方案录音笔68、麦克风智慧屏讯飞听见智能会议系统讯飞听见智慧办公室解决方案多终端服务(PC/Web/APP/小程序)软硬件协同场景化服务多领域词库AI智能处理人机耦合时间码自动匹配多语种字幕专业级录音实时同步编辑免费转写服务软硬件一体化开发接口支持公有云和私有化部署322022.12 iResearch I讯飞听见让办公更高效,让生活更简单,让沟通无障碍作为科大讯飞语音转写及翻译的重要业务承接,讯飞听见在业界的语音转写准确率、产品智能化应用、多领域场景化应用、多语种和方言表现上出色,并整合平台和人工译员等资源搭建语音语言服务平台,让机器与人工实现取长补短的融合,极致发挥人机耦合效能。如今,讯飞听见生态用户破亿69、,覆盖用户已超越5000万,并与众多B端客户合作打造行业生态平台,共同参与公益活动,让听障人士通过文字去感受世界、与人沟通交流,通过AI语音赋能产品,建立起与听障人士沟通的桥梁。未来,讯飞听见将以更积极的态度履行品牌使命:让办公更高效,让生活更简单,让沟通无障碍。来源:艾瑞研究院根据公开资料、公司官网自主研究绘制。讯飞听见转写业务优势高识别准确率、多语种翻译、稳定丰富产品性能应用实例行业生态伙伴公益行动生态共荣,开放API能力接口,服务生态合作伙伴。听见AI的声音:与中国聋协残疾人艺术团联合发起听障关怀公益“听见AI的声音”,累计为用户捐赠时长6000万分钟。B站无障碍直播间字幕:观看英雄联盟70、S11、2022英雄联盟MSI和2022英格兰足总杯活动。转写精准语种丰富会议纪要智能化场景化隐私安全全链路多终端产品,客户类型多元 准确率97.5%,1小时音频最快5分钟出稿。支持10种国家语言转写、12种地方方言、2种少数民族语。会议内容实时转写,边录边转;会议信息快速整理,清晰明了;关键内容实时标记,一键定位。智能纠错、语气词过滤 角色分离:智能区分说话人,标记多角色,快速整理稿件 根据不同行业客户,提供16个行业词库 适配不同客户需求,支持音视频、文档、链接等多格式 通过可信云认证,信息加密全程保证 硬软件一体、行业定制解决方案定制、私有化部署等。客户覆盖职场个人、政府企业、文化传媒等71、。同时搭建语音语言服务平台,整合AI语音产品及人工服务提升人机耦合服务效能。私有化转写翻译服务为客户提供私有化转写翻译服务。332022.12 iResearch I火山引擎服务于字节系产品,短视频字幕生成用户生态体量大火山引擎的语音识别能力基于深度学习技术,可将音频中的语音转成文字,用于识别多种音频编码格式、多种场景和不同长短的语音,广泛应用于音视频字幕生成、会议访谈转写、呼叫中心录音质检、课堂内容分析等场景。其智能字幕生成服务可用于辅助视频字幕创作和外挂字幕生成。产品支持多个语种的语音识别、歌词识别和字幕打轴,可结合语音停顿和自然语言的语义信息,全自动判断说话或唱歌,输出流畅自然的分句结果72、,适配视频剪辑、网课、视频会议等多种场景的智能字幕生成。有效提高视频内容生产者的积极性,降低视频内容处理成本。来源:艾瑞根据公开资料研究绘制。服务稳定准确率支持语种丰富企业级稳定服务保障,专有集群,大流量并发,高效灵活,可快速返回识别结果采用端到端语音识别框架,与抖音、飞书、剪映、西瓜视频等业务深度合作,具备实际业务场景打磨的丰富经验,确保准确率广泛应用于泛娱乐、办公、教育、客服场景,支持了汽车、智能金融、银行、保险、证券、运营商、物流、房地产等众多垂直领域多语种识别,支持中英日韩等多国语言及地区方言的识别多领域覆盖火山引擎语音转写服务特点与主要客户342022.12 iResearch I灵73、云听语灵云平台推出的以语音转文字为核心的云服务平台灵云听语是由捷通华声开发的一款专注语音识别转写的智能化应用。由灵云听语网页版和灵云听语App版组成,可分享相同账号,数据联通。网页版能够将音频转写结果以普通文本或字幕格式导出,支持在线编辑;App版则支持手机实时录音边说边转和导入音频文件转写识别。灵云听语支持多种音频格式,使用场景丰富,支持中文、英文、方言识别转写。中文转写覆盖13种专业领域,广泛用于办公会议、录音整理、访谈演讲、课程学习、记者采访、视频字幕制作等场景。来源:艾瑞根据公开资料研究绘制。转写服务覆盖13种专业领域通用聊天电话客服教育学习金融财经政党会议恋爱心理哲学思想广播电台企业74、办公旅游景点网课教学医疗健康国学历史实时转写响应速度快至500毫秒;非实时转写1小时音频文件只需5-10分钟语音识别速度快超大容量多种音频格式多语种mp3/wav/m4a/amr/mp4/flv/mov/avi格式支持中、英、方言识别和中、英、数字混合输入单条大小不超过5G,时长小于3小时灵云听语语音转写功能介绍352022.12 iResearch I录音转文字助手支持手机端和网页端服务,主要服务于C端用户录音转文字助手是由上海动起信息科技有限公司开发,可应用于安卓、苹果手机、iPad、网页端通用的一款将语音转文字、录音转文字、音频文件转文字并翻译记录的软件,适用于会议,采访,讲座,课堂,出75、国旅游,英语学习等各种场合。该应用依托迅捷语音的核心语音识别技术,提供视频转文字、图片转文字、合成主播等文字转语音应用,主要面向各行业C端用户。来源:艾瑞根据公开资料研究绘制。录音转文字助手业务布局与转写专业领域录音转文字翻译文字转语音快速转换文字,方便进行拷贝和编辑等后续的工作。适用于转写会议记录、电影对白、新闻媒体、情感写作等多个情景,提高办公效率,专注生产力的提升。亦提供人工精转服务提供简体中文、英文、阿拉伯语、德语、法语、葡萄牙语、西班牙语、意大利语、韩语的互译服务,支持中英文实时对话翻译高辨识度的语音合成功能,模拟真人发声,让文字信息变得绘“声”绘色。如广告叫卖、专题宣传、课件培训、76、方言配音、英语配音等。可以自定义主播参数的设置,如音量、语速、语调,来调节达到更适合使用场景的发音转写专业领域通用聊天会议办公教育培训情感写作新闻媒体IT科技36智能语音转写行业发展背景篇1智能语音转写行业市场分析篇2智能语音转写行业典型企业案例3智能语音转写行业发展趋势篇4372022.12 iResearch I技术趋势来源:艾瑞研究院根据公开资料与专家访谈自主研究绘制。应用价值提升仍受技术掣肘,转写场景有望进一步泛化智能语音转写的技术难点方言语种环境噪音多人声道如何提升语音识别鲁棒性?收集大量真实环境的语音数据进行带噪训练,需付出大量精力成本,且由于真实环境复杂多变,难以覆盖所有应用场景77、。采用单通道、麦克风阵列、机器学习模型、深度卷积模型自适应等语音增强方法,尽可能减弱背景噪声影响。当下语音识别技术的精度和速度仍取决于实际应用环境,在常见语种、标准口音、安静环境下的语音识别情况已达到了可规模化应用状态。但现实应用场景随机性极高,面对“混合语种”“嘈杂环境”下的“多人”“交互”“重叠”等多重因素交织的复杂语音场景,语音技术尚未能很好地处理这些问题。如今,语音转写应用多限制在办公会议、视频直播等部分较为理想环境下的固定场景,下一代语音识别技术的突破创新有望实现转写场景泛化升级,进一步抬升语音技术的应用价值与潜力空间。近场环境远场环境达到高识别准确率,甚至超过人类水平无噪音识别准确78、率略有降低,可规模化应用轻微噪音识别准确率将大幅下降在传播过程中,声波能量随传播距离呈指数衰减,语音信号受到噪声和混响的干扰更加严重鸡尾酒会问题:周围多人同时说话时,如何识别每个人的说话内容?众多汉语方言识别除中英应用广泛外的小众语种识别多语种混合识别(例:中英粤)如何区别不同说话人的语音转写内容?硬件层面:多麦板卡,基于硬件实现说话人分离目的算法层面:传统聚类算法,在说话人数量少,且无重叠语音等简单场景下,能够取得较好的效果;引入声纹识别,需提前录入说话人声纹达到说话人分离效果,限制应用场景;应用端到端语音分离模型,分离不同角色语音信号,将角色标签的指派问题,转化为目标说话人的语音检测问题,79、基于角色特性不断优化模型。如何解决方言及小语种的识别覆盖范围?尽可能收集方言及小语种的数据集语料进行语言模型训练解决低资源问题,通过少量数据资源解决方言,小语种识别问题如何解决多语种识别问题?通用建模:将不同语种的建模单元映射成同一套建模单元体系多语种混合模型:不同语种共享一个隐层神经网络,各自有独立的一个输出分类层382022.12 iResearch I场景价值基于产品生态圈,多维度延伸转写技术的内容价值链从产品生态圈来看,智能语音转写既可以作为单独功能产品出现,也可将转写模块嵌入到各个产品及应用领域中,将语音内容沉淀为文字资产,与更多应用形成内容联动,进一步拓展转写服务的技术优势与场景价80、值,打造连接转写应用生态的良性循环;此外,如今智能转写应用领域大多仅服务于从语音到文字转写内容的实现,而从内容价值链来看,未来转写应用可结合自然语言理解、机器学习、知识图谱等AI技术,拓展转写产品的场景边界,深入挖掘转写内容价值,在沉淀文字内容基础上,自主生成优化策略,以更高阶、智能的辅助替代角色,为客户提供问题预警、策略总结、决策分析等功能服务。目前可代表的典型场景为客服内容质检,但未来转写内容的分析挖掘在销售对话、办公内容洞察、视频内容分析、主播话术策略等领域有更加广阔的商业化前景。来源:艾瑞研究院自主研究绘制。智能语音转写产品发展方向+办公场景+音视频场景+交流场景+内容分析 将转写功能81、嵌入更多办公产品应用,形成内容联动及智能提取,提升办公效率 结合NLP及知识图谱技术进行转写内容的信息挖掘及深入分析 从web端、PC端、APP端提升转写功能可触达性,优化语种、方言的技术能力 赋能更多第三方音视频产品,开放转写功能模块,构建音视频产品AI应用生态 顺应会展两线融合趋势,提供线上会展字幕及翻译功能 泛化交流场景受众,赋能更多交流工具,打破方言、语种的语言壁垒 将语音转写功能开放给更多产品模块,将语音转为文字资产保留 开发文字资产价值,对转写内容进行深入分析,为公司提供高价值的决策依据392022.12 iResearch I厂商策略构建自身产品生态,加强外部场景合作顺应智能语音82、转写市场的需求释放,各家参与厂商将持续开展差异化竞争策略,在转写市场找到适合自身情况的角色定位,共同推进转写技术的应用渗透与市场发展。早期,智能语音厂商选择率先构建硬件生态,以硬件产品“创造”更多转写应用场景,快速获得C端流量入口与品牌认知,随后不断加强软件服务及生态能力。未来,智能语音厂商将在保证自身技术创新力与先进性的基础上,集中发力内部软硬件生态的合力构建;云服务厂商将持续保持对内嵌入转写功能、对外开放转写能力的双边策略,发挥自身平台优势,更多以提供底层能力服务的赋能者活跃市场;专业转写及翻译厂商将继续聚焦垂类场景,以转写及翻译能力为核心产品,以客户需求为导向,丰富软件产品的功能模块,加83、强构建更完善、更具业务理解的软件生态。来源:艾瑞研究院自主研究绘制。智能语音转写厂商策略构建硬件生态构建软件生态内部策略内部策略外部策略开展外部合作通过硬件产品开发创造更多转写服务的应用场景硬件产品一般选择与外部方合作,但转写厂商若具备硬件设计能力,可优化硬件中的拾音模块,提升转写识别准确率以转写能力为核心产品,开发对应软件产品将转写能力嵌入到现有软件产品中,将转写功能成为产品模块中的一项,优化用户在办公领域、音视频领域的使用体验。以API或SDK的接口形式将语音转写能力开放出去,为生态合作伙伴提供语音能力的集成化服务,无需自身投入大量精力实现以转写功能为核心的产品化。“厂商核心关注点即为转写84、服务的依托场景,如何通过内外部策略提升转写技术的商业价值”40行业咨询投资研究市场进入竞争策略IPO行业顾问募投商业尽职调查投后战略咨询为企业提供市场进入机会扫描,可行性分析及路径规划为企业提供竞争策略制定,帮助企业构建长期竞争壁垒为企业提供上市招股书编撰及相关工作流程中的行业顾问服务为企业提供融资、上市中的募投报告撰写及咨询服务为投资机构提供拟投标的所在行业的基本面研究、标的项目的机会收益风险等方面的深度调查为投资机构提供投后项目的跟踪评估,包括盈利能力、风险情况、行业竞对表现、未来战略等方向。协助投资机构为投后项目公司的长期经营增长提供咨询服务艾瑞新经济产业研究解决方案41艾瑞咨询是中国新85、经济与产业数字化洞察研究咨询服务领域的领导品牌,为客户提供专业的行业分析、数据洞察、市场研究、战略咨询及数字化解决方案,助力客户提升认知水平、盈利能力和综合竞争力。自2002年成立至今,累计发布超过3000份行业研究报告,在互联网、新经济领域的研究覆盖能力处于行业领先水平。如今,艾瑞咨询一直致力于通过科技与数据手段,并结合外部数据、客户反馈数据、内部运营数据等全域数据的收集与分析,提升客户的商业决策效率。并通过系统的数字产业、产业数据化研究及全面的供应商选择,帮助客户制定数字化战略以及落地数字化解决方案,提升客户运营效率。未来,艾瑞咨询将持续深耕商业决策服务领域,致力于成为解决商业决策问题的顶86、级服务机构。400-026-联系我们 Contact Us企 业 微 信微 信 公 众 号关于艾瑞42法律声明版权声明本报告为艾瑞咨询制作,其版权归属艾瑞咨询,没有经过艾瑞咨询的书面许可,任何组织和个人不得以任何形式复制、传播或输出中华人民共和国境外。任何未经授权使用本报告的相关商业行为都将违反中华人民共和国著作权法和其他法律法规以及有关国际公约的规定。免责条款本报告中行业数据及相关市场预测主要为公司研究员采用桌面研究、行业访谈、市场调查及其他研究方法,部分文字和数据采集于公开信息,并且结合艾瑞监测产品数据,通过艾瑞统计预测模型估算获得;企业数据主要为访谈获得,艾瑞咨询对该等信息的准确性、完整性或可靠性作尽最大努力的追求,但不作任何保证。在任何情况下,本报告中的信息或所表述的观点均不构成任何建议。本报告中发布的调研数据采用样本调研方法,其数据结果受到样本的影响。由于调研方法及样本的限制,调查资料收集范围的限制,该数据仅代表调研时间和人群的基本状况,仅服务于当前的调研目的,为市场和客户提供基本参考。受研究方法和数据获取资源的限制,本报告只提供给用户作为市场参考资料,本公司对该报告的数据和观点不承担法律责任。合作说明该报告由讯飞听见和艾瑞共同发起,旨在体现行业发展状况,供各界参考。