定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《工商银行:2024工商银行大数据技术及应用白皮书(36页).pdf》由会员分享,可在线阅读,更多相关《工商银行:2024工商银行大数据技术及应用白皮书(36页).pdf(36页珍藏版)》请在本站上搜索。 1、 版权说明?白皮书 工商银行大数据技术及应用 中国商银软件开发中?2024 年 10?版权说明?版权说明 本书版权属于中国商银软件开发中,并受法律保护。转载、摘编或利其它式使本书字或者观点的,应注明“来源:中国商银软件开发中”。违反上述声明者,我们将追究其相关法律责任。?1 录?录 第章 概述.2()数据技术发展历程.2()数据产业发展现状.3(三)数据产业演进趋势.9 第章 商银数据发展现状.13()数据平台产品视图.13()数据平台总体架构.14(三)基于数据平台打造企业级数据中台.25 第三章 商银数据应案例.27()基于流批体的个储蓄存款准实时计算案.27()基于实时数仓的报送解决案.2、28(三)内外部数据融合的控业务模式.29(四)数据驱动的码上赢新型营销模式.29(五)向营销经理/运营经理的地理空间信息助.30 第四章 总结与展望.32 第章?概述?2?第章 概述()?数据技术发展历程 随着数据技术的不断迭代优化,数据处理速度、存储容量及分析精度均实现了显著提升,这些进展极地提升了计算能,引发了对算需求的显著增。同时,数据与智能、机器学习等前沿技术的深度融合,正逐步解锁数据的深层价值,为各各业提供了前所未有的洞察和决策持。在这背景下,融业作为数据密集型业,其数据业务迎来了前所未有的创新和发展机遇,不仅促进了险管理、客洞察、产品创新等的精准化与智能化,还加速了融业态与服务模3、式的深刻变,预着数据技术在融领域的未来趋势将更加注重实时性、智能化与个性化服务的提升。1、萌芽期:传统数仓(2002-2012)企业需要对数据进全局性经营分析,由此诞了体机架构下的传统数仓。2、发展期:离线数据架构(2012-2016)随着互联的急速发展,数据规模爆发式增,体机架构以可接受的成本提供算,数据进开源时代。第章?概述?3 3、爆发期:Lambda/Kappa 架构(2016-2021)数据逐渐成为业务的重要撑,业务逐渐产时效的数据感知、分析决策、动和反馈的需求,数据向实时化演进。4、转型期(2021-2025):云原实时架构 业务复杂度进步增加,数据源越发多样化,更便的数成为业务的4、主要诉求,数据开始拥抱云原、AI 等其他领域。5、变现期(2025+):数智能 数据作为核产要素,与企业竞争直接挂钩,如何将数据价值快速变现成为关注重点。()?数据产业发展现状 进“四五”时期以来,数据产业已迈个新的发展阶段,产业内部逐渐细化,形成数据存储与计算、数据管理、数据应、数据安全四核领域。数据源通过数据存储与计算实现压缩存储和初步加,通过数据管理提升质量,通过数据应直接释放价值,并由数据安全技术进全过程的安全保障。四核领域当前呈现不同发展现状,在数据要素战略的新形势下,发展向均进步明确。第章?概述?4?数据产业四核领域 核领域?发展现状?发展向?数据存储与计算 实现了海量数据的效存储5、、计算 降低运维成本,提升处理效率 数据管理 头部业实现关键数据的管理 各业均实现全域数据管理 数据应 撑核业务分析和顶层决策 与全域业务深度融合 数据安全 推进外规内化与险治理 将安全治理能嵌业务 数据技术在数据存储与计算、数据管理、数据应、数据安全四产业领域有不同的发展,存算分离架构、融合体衍进、智能增强分析、数据研发运营体、内安全技术 5 项成为关注和发展焦点,国内外市场均涌现不少相关产品和案。1数据存储与计算领域【存算分离架构】存算体架构下,数据数据处理产品的存储节点、计算节点功能耦合或者部署耦合,存在部署规模上限低、计算弹性扩缩困难、存算故障隔离弱等问题。存算分离的弹性计算、规模上限6、、存算故障隔离等架构优势,能够提供更好的算保障和运维灵活性,有助于应对规模数据分析的挑战,从提供更好的数据驱动决策的持。近年来,业界存算分离的主流产品和样板技术也益涌现。主流产品有Apache Doris、阿巴巴Hologres、腾讯TCHouse、偶数科技HashData 第章?概述?5 等。融业中,建联合 HashData、云,推出了云原数据库产品“趺”,实现了基于虚拟机部署的存算分离架构。数据中间件技术,开源的缓存层框架 Alluxio 向上对接 Spark、Presto、Hive、TensorFlow 等计算应,向下对接阿云 OSS 对象存储、AWS S3 存储、HDFS 等不同存储,7、可提升 I/O 效率 200%以上;ShardingSphere 将多类异构数据库 MySQL、PostgreSQL、Oracle、SQL Server、GaussDB 等包装为统的数据访问接,从便多种编程语直接访问多类异构数据库。【融合体衍进】在数字化转型深的推动下,数据类型、数据时效和应场景的多样性要求企业搭建不同的平台和引擎来满使。平台最典型的如数据湖和数据仓库的部署使。传统的湖+仓库混合架构存在多种问题,如数据冗余、数据致性差、资源配置难、系统复杂等弊端,极增加了运维的压和成本。引擎聚焦在“批、流、交互计算”三种计算模型对应的诸多计算引擎,批、流、交互计算的计算形态不同,优化向也不同,8、导致各个计算引擎不能形成统,增加了数据处理的复杂度。融合体架构成为横跨数据存储与计算领域、数据管理领域,解决上述问题的类主流技术向,包括批流体技术框架、湖仓体技术框架、混合事务分析处理技术(HTAP)。建融合体能后,统的接层、计算层、存储层、资源调度层实现了对于海量数据的统管理和集群服务的统运维,幅降低了运维综合成本。在 2023 年,为了统湖仓体框架,部分企业提出“湖仓体”设计标准,例如 Databricks 的Open、Unified、Scalable 三标准(开放、统、可伸缩),偶数科技 第章?概述?6?ANCHOR 标准(多数据类型、云原、数据致性、超并发、份数据、实时 T+0)等,显9、出业界对湖仓体标准化发展的关注。近年来,海外商 Databricks 推出 DataLakeHouse、亚逊推出智能湖仓架构。国内阿云推出 MaxCompute 湖仓体案,提供性能数据仓库为主体、需数据搬迁即可缝处理和分析数据湖数据的湖仓融合的数据管理平台;华为云 FusionInsight 湖仓体架构,在 MRS 数据湖内承载全量数据,对数据进批量、实时加,个数据平台按需持批处理、流计算、交互查询和机器学习场景;其它如巨杉数据库 SequoiaDB、易数帆船 EasyLake、柏睿数据 Rapids Lakehouse 等产品。2数据管理领域【数据研发运营体化】随着数据应场景益丰富带来数据分10、析需求快速变化,数据程师、数据管理员、报表开发员、运维程师在内的各类数据管理增多,各类数据交付任务难度增加。数据研发运营体化技术(DataOps),是数据开发的新范式。它将敏捷和精益等现代软件开发理念引数据开发过程中,旨在提数据产品的交付效率和质量。通过将数据质量达标率、数据标准落标率、数据架构符合度、数据安全满度等指标作为数据设计、开发和测试的要求,优化数据产者和数据消费者协作效率,并通过标准化数据组件,构建了个体化平台打通数据设计、开发、测试和运维各环节,实现编写代码、产部署、调度监控全过程线上化,引可视化编排、CI/CD 等技术降低数据研发技术 第章?概述?7 槛,推动数据研发敏捷性,提11、数据运维质量。近年来,DataOps 已从个模糊的概念成功演化为具体的实践,得到了中国信通院等机构的积极推动。阿云 DataWorks、华为云 ROMA DataOps、腾讯云 DataFactory 等相关产品和平台的兴起,市场趋于繁荣。3数据应领域【智能增强分析】数据应利数据对各项事务进探索、分析、洞察并最终推动决策,实现数据价值的释放。数据应早已存在于类社会的各项活动中,但随着数据本形态、数据处理技术、数据应需求等的不断演化升级。数据分析法也在此过程中不断丰富,从早期的利 Excel等具进规模分析,发展到了通过 BI 图表可视化分析展现技术的向成熟,再到 BI+AI 模式的各种探索。智能12、增强分析技术(Augmented Analytics)代表了当前数据分析的智能化升级向。这种技术通过机器学习、然语处理等技术,提数据分析流程中的动化程度,实数分析作更加效和准确。尤其是在 AIGC(智能成内容)技术的推动下,智能增强分析得到了泛的关注和应,通过实现开发侧的模型敏捷开发、数据智能分析、资源统管理,以及上层业务侧的数据快速查询分析和总结,创建个“所思即所得”的交互分析过程。数据经纬(Data Fabric)为智能化的数据分析提供强的智能数据管理撑。其基于主动元数据、增强数据录、数据虚拟化等技术,将庞杂的数据处理系统群之中复杂的数据关系、数据权属等问题统建模,形成套分布式、动 第章?13、概述?8?化、智能化的数据管理形式。近年来,很多业界公司都推出了的智能增强型数据分析具,如微软 Power BI Copilot、百度 GBI、观远 BI Copilot 等,公有云服务有Microsoft Fabric、Amazon QuickSight。这些具使得数据分析可以通过对话的形式轻松完成,降低了数据分析的槛,使更多的线员能够利数据进决策。4数据安全领域【内安全技术】数据安全问题随着数智化加深产,内安全正成为传统安全防护技术的重要补充。频发的数据泄露、络攻击事件,使得全密态执环境、敏感数据动识别、效数据加解密、细粒度的权限控制、零信任等内安全技术的应不断增加,与传统络安全防护相辅相14、成。根据 IDC 发布的IDC TechScape:中国数据安全发展路线图,2022,零信任之数据安全、AI 赋能数据安全、数据险管理,数据安全基础设施管理平台这些变性数据安全技术将重塑数据安全市场。近年来,华为云、阿云相继推出全密态数据库,数据在侧(客端)加密后,在受信的服务器端全程只以密形式存在,当数据需要被处理时,客端通过远程证明确认服务端运在受信环境、且其内运的代码可信后,将秘钥端到端直接传受信环境,数据和秘钥仅在受信环境被处理,外部法进窃取数据,达到对所有的数据库事务、查询、分析等操作的持。另外,阿云 Dataworks 加敏感数据识别能,亚 第章?概述?9 逊 RDS 增加内置防墙15、,这些增强措施进步提升了数据的安全性和隐私保护能。(三)?数据产业演进趋势 在需求、技术发展和政策扶持和推动下,数据产业呈现出快速增和多元化发展,包括数据云原化、数字技术外贸化、数据要素资产化、机直接交互分析、业场景融合化、运维治理智能化 6 个趋势。1数据存储与计算领域【数据云原化】数据云原朝着云原数据库发展。云原数据库并不是将分布式数据库未经改造简单地迁移到云上,其以云化运环境为前提,在设计上通常结合分布式技术并普遍采存算分离、志即数据的设计思想,能够灵活调动细粒度的“计算和存储资源”进扩缩容,实现资源池化、弹性计算、集约运维等能,以应对更便捷、更低槛实现云上数字化转型与升级的挑战。例如 16、AP+TP 业务的混合处理、弹性+智能的成本控制。随着云原数据库的普及和发展,其正朝向更可性、更强的处理能、更智能化以及更普惠的向发展:是多级可,通过多副本、跨可区、跨地域、跨国域等级别可,实现多可区热活可、单个实例跨可区部署。是多级 HTAP,基于算法协同,内存计算、存储优化、并处理等技术兼容解决不同规模数据查询加速需求,包括如使内存池技术与 AP+TP 业务结合,减少络通信开销、提数据 第章?概述?10?致性和实现资源共享。三是智能弹性,在 Serverless 服务器计算基础上,根据历史负载数据,动计算画像,快速预测未来负载曲线,预先为弹性伸缩准备资源。【数字技术外贸化】我国数据产业经过17、多年发展,在存储与计算等部分技术领域的供给能已经达到国际流平。当前,东南亚为代表的新兴经济市场规模正在快速增,我国数据存储与计算领域的部分企业已开始向海外市场,阿巴巴、腾讯等企业已经开始借助全球云计算络基础,PingCAP、OceanBase 等企业借助开源优势,助其数据库、数据产品突破本、印尼等海外市场。2数据管理领域【数据要素资产化】2024 年全国两会报告为我们描述了数据要素改的 5 个重点事项:数据基础制度、数字基础设施、“数据要素乘”、公共数据授权和价格机制、数据跨境流动。2024 年 4 1,国家数据局召开次全国数据作会议。对于新质产之前的最多描述是“加快形成”,然这次会议有种明显18、的转变和强调,那就是要“发展”新质产。数据要素从资源到资产的转化是释放数据潜在价值的关键步骤,标志着经济社会数字化向更深层次发展。尽管数据前被泛认为具有价值,但其资产特性并未完全显现。只有当数据被确权、流通和交易,它才会从种资源转化为可量化的数字资产。国家在数据改的探索,如数据授权、交易、资产登记和表,都是这资产化进程的重要组 第章?概述?11 成部分。围绕数据要素这种新的“数据基础设施”打造“新质产”,将成为每家拥有数据资产的企业战略资源的重要组成部分。3数据应领域【机直接交互分析】在数据分析领域,SQL 以声明式编程语天然的易性和普适性最终保持了主流编程语的地位,Spark/Flink 等19、计算框架最终都增加了 SQL 接,新代数据平台 Clickhouse/Snowflake 等仅持 SQL。但随着模型/AGI 发展,编程开始到辅助编程(Copilot)阶段,最终会发展到全动代码成的阶段。编程接最终不再向是向模型和引擎,这种情况下 SQL 的劣势开始逐渐显露出来,例如 SQL 编程解释能不,需要依赖更多外部模块(如元数据系统),表达能受限等等。同样的 RAG+Prompt 能,模型成的 Python 代码质量于 SQL。Databricks 在 2023 年推出 English SDK for Spark 的能,得益于Spark 泛可获取的资料,在不需要额外 RAG 和 Pro20、mpt 的情况下,直连ChatGPT4 即可获得不错的编程效果。交互分析模式带来的概念和能将启发业界发起轮数据分析式的改。【业场景融合化】随着数字化转型深推进,各个领域对于数据技术和解决案的需求将进步扩和深化。尤其是在医疗健康、教育培训、交通物流等领域,基于数据分析与挖掘的智能决策持系统将发挥重要作。同时,在消费娱乐、社交通讯等领域,基于数据个性化推荐与营销系统也将带来更好的体验。借助数据流通数据可以在不同的数 第章?概述?12?据接受者与由数据汇聚,不断开拓使维度,数据价值也将在社会层层放。倚靠数据交易市场益完善,不同业之间的数据共享和融合将为数据应带来更多的创新和发展机遇,数据跨界合作将成21、为业发展的重要趋势之。例如,融科技、智慧医疗、智能制造等领域将通过数据纽带实现深度融合,共同推动数据应场景的拓展。数据市场的市场格局将更加复杂,企业需要加强与其他业的合作和融合,激荡出更多数据价值,提升服务,以拓展市场空间。4数据安全领域【运维治理智能化】对规模数据和不同的应场景,传统数据库组件存在业务类型不敏感、查询优化能弱等问题。前有研究通过将机器学习算法替代传统数据库组件的式以实现更的查询和存储效率并动化处理各种任务,例如动管理计算与存储资源、动防范恶意访问与攻击、主动实现数据库智能调优等。机器学习算法可以分析量数据记录,标记异常值和异常模式,帮助企业提安全性,防范侵者破坏,还可以在系统22、运时动、连续、预地执修补、调优、备份和升级操作,尽可能减少为错误或恶意为,确保数据库效运、安全失。智能处理模型将成为数据应优化的重要程碑。随着 AIGC 的进步演化,通过构建针对数据发现、查询调优、攻击防范、故障分析等各细分领域的“模型”,AIGC 将促进专业知识和经验被准确地转换为机器可理解、可执的数字信息,逐步替代处理,幅度地降低运营成本和提产效率。13 第章?商银数据发展现状?第章 商银数据发展现状()?数据平台产品视图 数据平台是具备海量数据存储、批量计算、流计算等能的企业级数据云基础设施,融合了关系型、关系型数据处理能,为应系统提供开箱即的数据服务。l 数领域:打造快捷数技术平台,赋23、能数据研发和业务数分析场景。数据作站:提供全的研发与测试服务,提升数据研发员作效能。14 第章?商银数据发展现状?即时 BI 平台:提供全的数据分析与图表展现服务,降低数据探索槛,提升价值转换效率。垂直领域:打造数据领域能突出、边界清晰的技术平台,实现向数据垂直领域的技术赋能。批量计算:提供海量结构化或半结构化数据的采集和规模并计算能。流计算:提供事件驱动式逐条实时/准实时的分析、统计、处理计算能。联机分析:提供海量数据并发的键值、复杂查询能。对象存储:提供向海量结构化数据进并发联机存取的能。l 通领域:打造基础数据服务技术平台,实现向通数据处理领域的技术赋能。数据交换:提供基于件、增量志等形24、式的通数据交换能。数据安全:提供通的数据全命周期安全保护解决案。()?数据平台总体架构 15 第章?商银数据发展现状?数据平台以数据共享、资源统筹、软件服务化的云理念打造开箱即的数据服务,在架构上分为数据服务、数据底座、数据运营作站三块。1数据服务?提供各类企业级数据服务,包括批量计算、流计算、联机分析等基础服务,以及离线数仓、实时数仓等组合服务,并打造了即时 BI、数据开发作站等图形化数赋智具。此外,还建设空间数据分析、向量分析等多样化引擎。(1).离线数仓 离线数仓提供向海量结构化或半结构化数据进规模并批量计算的能,撑全数据湖、数据仓库建设,满数据批量加等场景,基于 Hadoop 和 MP25、PDB 建设,并实现跨库融合计算。具有海量存储、全分布式并计算、资源弹性可扩展、数据共享开放、主可控、持多编程语等特点。(2).实时数仓 实时数仓是个向业务实时变化的数据处理解决案,通过 Flink 流式计算和 Hudi 表流批体存储,提供增量数据实时同步、维表关联、多表聚合的实时计算技术案撑,多数应场景中,其数据处理链路时效 16 第章?商银数据发展现状?提升 15 分钟。相较离线数仓,实时数仓处理具有两特点:是其处理的数据是实时、增量产的;是对数据的采集、计算、分析等操作是实时的,数据乎进数仓后即可以即被使。实时数仓包括采集、计算、分析共三个阶段。实时采集是实时计算、实时分析的必要基础,在26、实际业务场景中可在实时采集完成后直接对接实时计算,并对计算结果进实时分析,整体形成向业务实时变化的数据处理解决案,提升数时效。(3).流式计算 流计算平台向数仓开发员、数据分析师等,提供服务于流式数据分析、统计、处理等应场景的站式开发具,具备端到端毫秒级的实时数据分析能和读写内主流存储的数据连接能,内置多种函数库和实时算,并通过标准 SQL 降低业务开发槛,撑各类实时计算场景建设。(4).联机分析 联机分析提供海量数据并发的键值对数据存储和检索服务能,持从多维度、多层次的度对数据进查询和分析。由于联机分析每次访问时的 SQL 会有区别,所以法提前建索引,每次都需要全表扫描,具有数据量、并发量低27、、单次延时的特点,故需要专的联机分析引擎提供联机分析服务。17 第章?商银数据发展现状?联机分析引擎般具备如下服务能:计算服务,提供键值查询、复杂查询,以及搜索服务能。存储服务,通过压缩存储、碎整理实现对物理存储空间的清理优化,合理利存储资源。管理及运维,研发了跨园区数据同步、多园区多活功能,满对客服务的稳定性、连续性要求。数据集成,按加载数据量,提供批量和联机加载式。(5).数据分析 l?助式 BI?即时 BI 提供助分析、助定制、数据挖掘、订阅推送、预警、模板沉淀等核分析能,撑业务员助实现对业务数据的搜集、整理和分析,开展战略解码、洞察分析、运营管理、闭环优化、预警感知等全流程数据分析及运28、营能。同时持与业务系统快速集成,赋能业务发展、快速效,形成规模效应。围绕“数据还给业务”的作要求,即时 BI 平台提供端到端的数据建模、助查询、助报表、发布共享、查看分析等分析能,并提供项管理,模板中等能,降低数据分析师、业务等员数槛,提 18 第章?商银数据发展现状?升数据分析效能。主要能具体如下:l 数据建模:向掌握 SQL 的分析师、业务等员,提供 Hive,Spark,Mppdb 等算,对接 Hadoop、MPPDB 数据源,实现在线助数据加,并通过定时任务的式实现批量数据加,解决复杂场景报表以及实时查询效率低、查询超时等问题。?l 助查询:向分析师、业务等员,提供 SQL 数据集,组29、合数据集、定义数据集等式实现数据的查询分析和数据集定义。提供数据助,通过“模板+模型”结合的模式建设对话式取数能,降低常指标数据提取、报表制作等场景的槛及作量,让原先只能等待科技员协助查数的业务员也可以查询指标数据,为实际的策略制定、业务开展做数据撑。?l 助报表:向分析师、业务等员,基于助查询定义的数据集,使饼图、柱状图、地图、交叉表、由表格等不同的可视化组件。可实现报表、仪表盘、屏等的可视化定制。提供灵活查询作流,具备任务节点定义、设置任务前后项依赖、定时调度等功能,以可视化 DAG图的式将灵活查询任务按照任务间的依赖关系关联起来,解决数据加流程中错综复杂的依赖关系,帮助错峰使数据资源,实30、现对复杂灵活查询任务的动化管理。?l 发布共享:向业务员,提供报表、仪表盘、屏等的助分析 19 第章?商银数据发展现状?结果在线发布共享功能,采助分析环境和发布环境隔离式,确保发布后报表的稳定运,发布后的报表持分享给相关员查看,或通过嵌的式供各业务系统集成,实现数据价值快速流动。?l 查看分析:向分析师、业务等员,通过提供洞察具箱、模型库和空间数据分析等功能,不断探索、深挖数场景,沉淀通场景的分析范式,为提供更加全的数据分析体验,帮助更快、更直观地完成数据智能可视化。?l 开放集成服务:具备全链路集成能,向科技研发员,提供 BI、报表、仪表盘、屏等的嵌服务以及报表发布、报表导出、异步查询等 A31、PI 接,供应不同程度集成到业务系统以及业务场景中。l?智能 BI?随着模型技术横空出世,数据分析领域也积极探索将模型技术与数据分析技术相融合,形成对话式 BI(ChatBI)应范式。通过多种式提升模型在 BI 场景下的能和性能,建设更专业的适合全通数据分析场景应的 BI 模型。ChatBI 应过程主要包括问答模型开发、对接数据分析、运营推三个环节。应只需准备好数据资产和模型服务,完成三个环节,即可在 ChatBI中快速使模型的能完成对话式数据分析。20 第章?商银数据发展现状?(6).数据开发作站?能概述?数据作站根据研发场景和向分为总通服务与分特服务。数据作站(总通服务)是向总科技员,撑各32、类数据研发场景的站式数据研发平台。通过低代码的数据资产接、研发撑具、数据持社区,形成向贴源、聚合、萃取、数据服务等专业领域,覆盖需求管理、研发测试、态社区等研发周期的 DataOps 数据研发流线,降低数槛、提升研发效率与质量,实现数据价值快速交付与规模化输出。数据作站(分特服务)是向分科技员,以总 DataOps最佳实践,满分数据研发痛点问题及差异化需求的站式数据研发平台。提供特数据上传、特批量加、数据同步分析的研发流线能,满分站式效研发的诉求,提升分研发效率与质量,实现分数据价值快速交付与规模化输出,为分数字化转型提供赋能撑。21 第章?商银数据发展现状?能详细介绍?数据作站(总通服务)D33、ataOps 数据研发流线,基于数据标准化、敏捷化和低槛理念,形成了包含数据探索、数据准备、数据研发、数据共享服务、数据测试、发布上线、数据运营等数据研发全命周期的研发流线,持批量计算、流式计算、流批体、数据交付等多种数据服务能的平台化开发能,持多语、多场景的研发撑能,涵盖模型设计审核,数据加、测试,数据服务编排、发布流程等功能,提科技员研发、数据准备和测试的作效率。l?数据探索:向总科技员,提供数据资产检索、数据协助沟通和知识共享能,辅助科技员快速探查和使数据。?l?数据准备:向总科技员,提供多种类的测试数据服务,涵盖沙盒数据抽取、产数据探索等,辅助科技员快速构建带数测试环境,确保测试数据完34、备性与有效性。?22 第章?商银数据发展现状?l?数据研发:向总科技员,提供在线 IDE、代码扫描、作业编排、单元动化测试、在线提交 git 等功能,拥有 Hive/Spark 批量加研发、Flink 流加研发、实时数仓研发的多语多场景融合能,撑科技员对萃取层数据、聚合层数据、贴源层数据、流式数据进流批体加,并将加后的结果直接成对应的数据服务,涵盖 AI 模型服务、BI 可视化服务和数据 API 服务,并将服务于产品应直接对接。?l 数据共享服务:向总科技员,提供服务化接封装能,使数据体系向上层应形成统的数据获取式,并以低代码式提数据服务开发效能,幅度简化、规范化对数据的“取”和“”,有利于数35、据服务资产的管理。?l 数据测试:向总科技员,提供了数据平台的动化测试框架,基于数据缘动成单元测试案例模板,帮助全程可视化灵活编排测试流程,解决数据案例编制槛、案例难复管理的痛点。并接了中的质量禁,进步保障了数据平台的代码质量与数据质量。?l 发布上线:向总科技员,通过与内已有 DevOps 持续交付体系融合贯通,加速数据价值快速交付。?l 数据运营:向总科技员,提供批量作业监控、性能容量监控、险预测等服务,协助科技员了解产数据加情况和预测性能险隐患。?23 第章?商银数据发展现状?l 数据作站(分特服务)DataOps 数据研发流线,基于总最佳实践,形成了包含项管理、研发探查、数据研发、发布36、部署、运维管理等数据研发全命周期的研发流线,满分科技员在分数据资产探查、总分数据融合加、数据服务灵活发布与助运维等场景的使诉求,解决分科技员站式研发需求。?l 研发探查:向分科技员,提供分资产探查、数据分布预览、数据持社区等数据探查功能,提升已有数据资产复程度。?l 数据研发:向分科技员,提供在线 IDE、数据上送、数据共享、调度订阅、代码扫描等功能,涵盖 Hive、SparkSQL、FlinkSQL、DataAPI 数据服务等多种数场景,持分本地特数据快速同步总集群进融合加计算、总集群加结果按需灵活同步分云联机库、总分调度深度贯通等研发模式。?l 发布部署:向分科技员,供在线版本部署、发布审37、核功能,由项管理岗在线进发布前的版本内容、上线流程的质量审核。以及在线键登记注册分资产的能,推进分资产标准化管理。?2数据底座-引擎层?基于 Hadoop 和 MPPDB 建设,提供多样化的计算引擎和计算能,包括 Hive、Spark 等批量计算引擎,Flink 实时计算引擎,Hetu、CK 等实时分析引擎,并提供任务编排、数据集成等融合计算能。24 第章?商银数据发展现状?3数据底座-资源层?硬件上,对异构硬件设备进资源池化和资源调度,持 ARM 和 x86设备混部;资源调度上,实现数云融合,实现云数平台间的弹性资源调配,可复 PaaS 平台低峰期空闲资源。4数据运营作站?数据运营作站实现了38、资源申请的线上化流转,完成全链路数据采集及展,同时提供平台内部的设备、集群、服务、资源的可视化维护操作界,建数字驱动的运营、运维管理模式,协助科技员了解产集群资源、作业运与数据加情况,推进研发运维体化。数据运营作站向提供如下三层核能:l 赋能层:向三类核的使场景,提供专属操作视图进赋能。?l 能层:向运营框架打造三块能:资源管理能、运维管理能及知识管理能。?l 处理层:处理集群、服务、硬件、外部数据,为能层供数;处理集群、服务操作请求,为能层提供操作撑。?25 第章?商银数据发展现状?(三)?基于数据平台打造企业级数据中台 数据中台“承技术启业务”,从传统数据仓库以数据件为主的输出模式,转向以39、 API 数据服务为核的中台服务模式,以此形成“变速轮”,数据洞察双承载企业稳健管理与敏捷商业动持续将稳健的后台经营管理快速传导敏捷的前台业务办理,以数据驱动业务持续地迭代创新。此外,数据中台聚焦数据资产,以数据为根本要素,通过“业务数据化、数据资产化、资产服务化、服务业务化”,收集切必要数据、资产化切核数据、服务化切数据资产,最终以服务化形式反哺前台业务系统。总之,数据中台综合运新型数据智能处理技术、数据建模法和可视化展等技术,通过对各类数据进主题化、指标化、标签化、模型化处理,以数字化、智能化的段,将数据抽象成服务,推动业务数据化向数据业务化进阶发展,响应前端业务的快速变化,提升企业数据价40、值变现的能(D2V,Data 26 第章?商银数据发展现状?to Value),打造科技赋能、数据驱动、业务联动的企业级数据能中。以国家将数据列产要素为契机,充分借鉴业界建设理念,贯彻数字战略,按照智慧银信息系统(ECOS)总体布局,并以业务架构建模成果为指导,形成具有特的数据中台设计法,遵循统法、统原则,以统思想开展三核能建设:l 推进数据分层体系建设,以共享、复、创新为标,建设以贴源层、聚合层、萃取层为核的数据中台分层体系,以业务视搭建并巩固数据中台的数据底座,建设全新的数赋智体系,解决数据“可、可懂”的问题。?l 建设数据资产运营管控体系,建成数据资产管理平台,规范数据管理,形成数据资产41、全视图,强化数据资产运营,全降低找数槛。?l 全升级数赋智具,幅降低数赋智槛,持业务主创新,助智能化转型,全降低数槛。?27 第三章?商银数据应案例?第三章 商银数据应案例()?基于流批体的个储蓄存款准实时计算案 商银基于 Hadoop、Hive、Flink、Kafka 等技术框架,使批量数据和实时数据进融合使,通过标准化SQL即可实现流和批数据的关联加,提升数据时效的同时,降低使的复杂度。通过统数据服务进封装,融合批量计算和流式计算的结果,兼顾了数据“新”、“全”、“快”的需求,满业务对数据时效性、数据完整性等的数需求。个储蓄存款经营指标时效提升储蓄存款时点余额作为银在某时点上的资存量,是银42、资来源的核,也是资流动性的保障,还是进险防控的前哨,更是银市场竞争和可持续发展能的体现。为实现对银存款指标的精准监控,助总分迅速响应市场变化,实时感知经营状况,商银基于“流批体”框架,以“结算即动账”为思路,实时获取定期、活期存款等结算交易志数据,同时基于批处理的终储蓄存款时点余额,创新性地推出个储蓄存款准实时计算模型,成功实现储蓄存款实时增量、当存款增量变化及当资类账额情况等关键数据的准实时更新,将存款变化数据的更新时效提升分钟级,幅提升了银个储蓄存款指标监测能,帮助业务员实时掌握存款动态,精准预判市场趋势,把握营销时机,助储蓄存款业务实现新突破。28 第三章?商银数据应案例?()?基于实时43、数仓的报送解决案 随着各类数场景中对数据时效的要求越来越,基于批处理的离线数仓的 T+1 时效已经难以满业务的需求,即使将调度频率设置成 1530分钟级,也只能解决部分时效性要求不的场景。近年逐步发展的实时数仓技术是种于存储和处理实时数据的系统,具备实时进数据处理和分析的特点,可以实时响应的查询和分析需求,满更时效需求的应场景。商银数据平台实时数仓通过引业界新技术,提供实时采集、实时计算、实时分析三服务,形成向业务实时变化的数据处理解决范式,打造分钟级数据湖能,进步提升数据加时效,降低时效场景的研发槛,拓展了各类复杂实时分析场景的撑能。商银基于 HUDI+联机库实现亿级数据量的维表快速关联,解44、决了流式处理表关联的难点,实现个账信息或客信息变动的准实时加,将整体报送时效由原来的 40 分钟缩短 1 5 分钟,以应对对跨机构账信息准实时报送的要求,对新开账、注销账、信息变更等 6 个场景进实时报送。29 第三章?商银数据应案例?(三)?内外部数据融合的控业务模式 商银借助企业级数据中台,融合内外部数据,构建险预警模型,提供预警结果提、险视图查询等多种服务,形成内外部数据融合的控业务模式,驱动业务险防控。该控业务模式通过内外部数据融合和险预警建模,实现对业务场景控的双轮驱动,可供各业务险防控场景参考。基于险共享数据服务应输出的债券违约预警相关服务,已在总分多个业务部、以及综合化公司开展应45、。其中,债券违约预警信息累计发送“险客及持仓预警报告”140 余期,持线部据此采取相应险减退措施;债券违约预警信息、及同发债主体在的贷款信息,并发送各分及公司,提醒其及早预;私银客经理在给客推荐理财产品前,排查理财产品是否涉及险预警债券,从避免推荐险产品;贵属业务部对于系统预警信息核实交易对是否存在实质性险,并采取应对措施。近年内,对于投资的债券违约发提前预警率为 100%,平均提前预警时间超过 200 天,助业务在违约前成功减退投资额约 17 亿币。(四)?数据驱动的码上赢新型营销模式 30 第三章?商银数据应案例?为解决客经理主要通过线下点触达客,存在客触达受物理位置限制,拓展客消耗时间成46、本偏,营销活动客转化率偏低,缺少持续经营客的抓等问题,商银打造数据驱动的码上赢新型营销模式。该案获取了码上赢微信渠道上的海量客从扫码到办理业务的为数据,利数据中台统的数据服务能提供客转化情况给客经理,帮助客经理实时掌握营销转化率,定位需要协助办理业务的客。同时,该案采集码上赢裂变式营销过程中,客经理与触达客的映射关系,为后续描绘客群体画像,制定营销策略,寻找码上赢合作伙伴提供了数据持。码上赢智能数案上线后,客经理在理财产品销售与客营销的业务场景下,可以实时的掌握营销转化率,及时响应客需求,提升理财类业务客的转化效果。在实时性业务需求下,客经理也可以通过准实时的运营监控具掌握营销转化情况和营销业47、绩,打通裂变式营销传播链条上的数据断点,激励客经理,帮助客经理及时调整优化营销策略。针对已建的客群体,该数模式案为客经理提供丰富的客群体画,帮助定位价值客群,制定有针对性的活客策略,并帮助客经理寻找合格的码上赢营销助,进步提客触达的范围。(五)?向营销经理/运营经理的地理空间信息助“地理空间信息助”数据产品基于零售领域海量数据,融合百度空间数据、商企业信息等外部数据,构建全位的零售空间数据服务 31 第三章?商银数据应案例?体系,结合客画像、收单商画像等信息,形成可视化的客洞察、客商机挖转等服务能,向客营销经理、客运营经理,提供以点识客、以点知客、以点圈客、以点触客等服务,撑商/代发单位/代发48、个等 GBC 联动营销与运营、点经营决策等专业场景拓展。传统的营销、运营模式中,多以清单、任务等式开展相关活动,运营经理先通过定的条件筛选客群,再根据筛选结果,通过智慧脑等系统向客经理分配营销任务,由客经理按照任务开展营销作。基于“地理空间信息助”解决案,运营经理、客经理可以通过地图标注、地图选点等直观式了解点周边潜在客的概况,并且在同界上获取每个潜在客的详细信息,并且能够键式成营销任务。客经理也可以在地图界,了解所负责营销的标客信息、地理位置等信息,更便捷的开展营销任务。32 第四章?总结与展望?第四章 总结与展望 随着数据技术的不断迭代优化,过去 20 年间取得了许多突破性进展,包括新的计49、算引擎、并计算技术以及存储引擎等。这些进展极地提升了计算能,引发了对算需求的显著增,推动了数据业务的创新和发展。未来,数据平台有如下演进趋势:存算体逐步向存算分离演进:随着集群规模和业务量的增加,在集群资源扩容(计算和存储需等例扩容)和稳定性(故障域)等都会临挑战,需向存算分离架构演进来解决这些问题。存算分离是指将计算节点和存储节点分离部署的技术架构,使得计算节点和存储节点均可以按实际需要进扩缩容,同时计算节点所组成的计算集群间都可以共享读取同个存储,需数据冗余。离线数仓逐步向实时数仓演进:传统数据批量积攒式的加模式,计算空等数据,可以发现全局上存在加空闲、繁忙两种状态,呈现波峰波。加作业间波50、峰叠加概率不低,对资源配给造成冲击。鉴于通过调度等式优化存在变数多、策略复杂等情况,这种资源争抢性质的问题很难从外圈彻底优化解决。实时数仓技术提供分钟级处理,处理的数据集更,处理完成得更快,数据加频率的波形更为平缓,减少不同作业组之间波峰叠加情况。从度来看,随时都在获得加结果,并 33 第四章?总结与展望?且结果的获得受业务峰的影响更加微,提升了数据价值洞察平。云数智常态融合:随着“云计算第三次浪潮”的到来,业界云计算体系正围绕“算”出现结构性变化,云数智云原化、算融合已然成为发展趋势,数据中机房紧张,临资源严重不的实际痛点,为保障算充分使,云计算与数据、智能技术融合体系将成为常态,解决业务资源使痛点。通过资源 7x24 时混部,根据在线任务的使情况,动态调整离线任务量。离线任务能够任意时刻将集群的空闲算利起来,持续且充分的挖潜服务器资源,可进步推资源利率,可有效突破在线资源池资源利率瓶颈,并实现业务加速,是算资源建设的新趋势。34 第四章?总结与展望?