• 首页 >  信息科技 >  大数据
  • 网易数帆&DataFun:网易数据标准实践白皮书(2024版)(47页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《网易数帆&DataFun:网易数据标准实践白皮书(2024版)(47页).pdf》由会员分享,可在线阅读,更多相关《网易数帆&DataFun:网易数据标准实践白皮书(2024版)(47页).pdf(47页珍藏版)》请在本站上搜索。 1、网易数据标准实践2024版2024版现实生活中,标准与我们息息相关,我们吃的食品需要满足国家标准才能给我们食用,汽车排放达标才能够上路行驶,电脑接口得满足统一的标准才能够与外设对接等等。在数据的世界,数据标准也同等重要。我们期望将数据标准真正应用到实践中去,帮助企业解决资产化不足、数据质量难以提升、数据开发效率低等问题,于是网易开始了数据标准的建设。在本手册中,网易将基于对数据标准的理解,阐述标准的建立并依据标准的建立内容和流程来设计的标准管理产品的介绍以及标准在数据治理过程中的具体实践,希望与大家碰撞出新的认识!导读introduction目录CONTENTSData standard数据标2、准是什么010102value数据标准价值0303Set up如何建立数据标准053.1 数据标准规划05?收集现行标准05?从局部标准到全局标准06?发现更多数据标准063.2 数据标准制定07?元数据标准07?基础数据标准10?技术标准制定143.3 数据标准发布143.4 数据标准执行153.5 数据标准检查163.6 数据标准维护16Product introduction数据标准产品介绍17044.1 产品总体架构174.2 产品功能模块18?标准概览18?数据标准文件管理19?数据项标准管理19?元数据标准管理22?技术标准管理23?标准流程管理24?标准配置2705practic3、e数据标准和数据中台的结合实践285.1 数据传输295.2 元数据29?表元模型设计30?字段元模型设计31?指标元模型设计32?标签元模型设计325.3 模型设计33?分层规划33?分类规划33?表结构及数据项标准设计345.4 数据开发355.5 数据质量355.6 数据安全36Sum up总结370638-41About us关于我们在实际的工作生产中,我们一般会参照国家标准、地方标准、行业标准等来进行具体的活动,来确保我们生成过程符合监管要求、便于上下游协同等,于是我们会见到如下的标准指导文件:同样,数据标准也会以文件的形式存在,在除了国标、行标定义的标准外,企业内部为了便于各部门采4、取同样的数据建设规范,通常会使用文件来定义数据标准,以供各部门达成统一的共识。然而文件固然是标准的一种体现形式,但文件是非结构化的,在实际应用中,我们只有理解、提取文件里的内容,将标准应用于产品设计及流程活动当中去,标准才能起到真正的规范约束作用。01 数据标准是什么?01Data standard毫无疑问,这是正确的。但我们还需要将标准践行,以建设数据中台为例,我们知道数据中台强调的是资源整合,在数据层面就是整合多源异构系统中分散在各个孤岛的数据,形成统一的数据服务能力,这是一项艰巨的任务,很难通过互相约定以及默认信任相关方来保障数据的价值发掘,形成真正的数据资产。于是,基于此点将数据标准进5、行扩充,一是对管理范围的扩充,从狭义的数据标准(指对基础数据本身的规范性约束,如数据格式、类型、值域等)扩充到整个数据中台层面的标准(包含治理各阶段的规范性约束);二是对管理手段的扩充,数据标准不再是指一系列的数据标准化文档,而是一套由规范要求、流程制度、技术工具共同组成的体系,通过这套体系完成标准的规划、制定、发布、执行、检查、维护等行为,来完成数据的标准化以及标准的沉淀。根据信通院发布的数据标准管理实践白皮书定义:数据标准(Data Standards)是指保障数据的内外部使用和交换的一致性和准确性的规范性约束。02免费试用在线咨询在说价值之前,我们先聊聊让我们头疼的问题。人人都在谈论数据6、标准,但数据标准真的被应用起来了么,我们拿着一堆标准文件,期望企业内部宣贯大家要按照这个标准来,但执行的结果如何?数据集成多源异构数据时,数据工程师真的能快速理解这些数据的实际业务含义么?如果理解成本很高,开发人员可能就会出现认识偏差。终于数据集成进来了,可以开始进行数据建设了,如何保证每一层的数据都是符合质量要求的,靠开发的个人素质么?比如我们一般在dwd层做数据标准化,那么不同主题域的由不同的负责人进行开发,怎么保证标准化的结果似乎满足规范的?dws的数据可信度还能保证么?还能被叫做公共模型层么?再后,数据工程师开发完成后需要对外开放,我们其实开发的不光是其数据,还需要开发它的元数据信息,7、帮助数据使用方快速的找到需要的数据,如果只是把数据堆在一起,只有研发人员自己知道这个数据是什么、在哪、怎么使用,那是不能够被称为数据资产的。还有很多问题,这里只列举了些典型。当然这些问题,是可以解决的,解决的方式就是数据标准。解决的的过程可能需要的时间比较长,因为标准从管理到落地执行推进并不是一件容易的事,需要从思想上进行转变,但我们总要正确的做事。03下面列举了一些价值,但在实际的应用过程能够发现更多的可能性价值一:建立统一的数据视图建立通用的元模型规范,支持用户自定义扩展,对多源异构数据表进行信息抽象提取,形成统一的元数据层。所有的数据开发完成后发布到数据标准维护的统一的数据目录,通过不同8、维度的数据目数据标准的价值02value04价值二:建立统一的数据认知首先利用标准完成对多源异构数据的标准化描述,虽然数据在不同系统中的称呼千奇百怪,但只要进入我们的平台都将赋予统一的名姓,使得管理方、开发方、使用方建立统一认知。对于仓外表将数据标准与表字段进行关联,旨在统一含义以及告知未来数据处理的方向;对于仓内表,模型设计之初就需要引用标准,我们知道将数据项进行组合即可得到模型,数据元即为标准数据项池,模型设计时仅需从池子里选取需要的字段进行组合即可组装成想要的模型。价值三:建立质量稽核体系现有的质量稽核一般是由用户根据业务需求手动设置,不同人员的认知偏差将导致数据质量难以控制。数据标准通9、过数据元的表示类属性,根据其格式、类型等要求自动生成质量稽核规则,当某张表的字段绑定了数据元时,即可根据数据元的质量信息要求自动生成稽核任务,且保证了源头定义的一致性。价值四:面向未来的数据治理我们知道,工具的终极目的都是为了降本提效。效率提升是要靠流程规范的,流程足够规范,在某种程度上可实现流程自动流转。因此,未来的数据治理趋势应当侧重于流程自动化以及阶段智能化,而这两点都需要数据标准的支撑。阶段智能化期望在流程各阶段提供智能识别能力,比如字段的真实含义(挂载数据标准)、资源所属分类、字段枚举值等,减少人工参与。从短期来看,用户从处理者变为审核者,从长期来看,用户干预的行为反哺识别模型,增加10、识别准确性,可降低人力成本;流程自动化依赖阶段智能化以及人工干预的结果,将各阶段进行串联,上下游尽可能完美对接,当上游阶段达到下游准入条件时,可自动触发流程运作,当然该过程也需要统一上下游语言(即数据标准),在实际实践中,可通过试运行进行验证。标准的价值还有很多,限于篇幅不过多赘述,大家可以不断发现标准的应用场景。说完标准的价值了,那么我们该如何建立数据标准呢?录进行多维筛选,满足各类用户的检索需要,达到资产的可管、可用、可查的目标。05在早期的业务发展过程中,企业为了解决当下的业务问题,各业务条线已建设自己个性化的业务系统,在建设的过程中为了保证内部通信,或多或少都已存在局部的数据标准。因此11、,建设统一的数据标准很大程度上是对局部标准进行收口,一般来说,可收集现行的国家标准或行业标准,将现有标准与国标或行标进行对标,此过程一是可以满足监管需要,二是可大大节省标准制定的人力;另一方面则是考虑所在行业的特点并结合企业的实际需要,逐步构建标准进行推行。具体可参考数据标准的建立的6个步骤,分别是:数据标准规划、数据标准制定、数据标准发布、数据标准执行、数据标准检查、数据标准维护。如何建立数据标准?03Set up数据标准规划标准的规划首先需对企业业务和数据进行调研和分析,结合实际的数据标准需求,明确数据标准的范围。再根据实际情况的不同,逐步推进。收集现行标准可从业务流程出发,圈定参与业务流12、程的业务实体,通用的业务实体如人,可收集对应现行的国家标准,如对于公民身份证号码应当遵循强制性标准GB 11643,对于性别的代码应当参考推荐性标准GB/T 2261.1的规定,行政区划应当参考GB/T 2260的规定等。具备行业属性的业务实体如商业银行担保物,可参考JR/T 0170.1以及JR/T 0170.2的规定等。06从局部标准到全局标准对于企业各业务条线(部门)已建立的局部标准且不适用于引用现行标准或不存在于现行标准的需要进行收集,对同一业务含义但不同标准描述的项进行评审,在企业内部达成一致,得到最终统一的数据标准。此过程可包含基础类数据标准统一、参照类标准统一、指标类数据标准统一13、。发现更多数据标准发现更多标准主要应用于以下情况,一是局部标准不明确也无现行标准适用时,二是企业各业务条线垂直系统较多,数据体量较大,缺乏足够的人力及技术手段,但从总体战略的角度期望制定标准时。应对这种情况可依赖(第3节将详细介绍)进行标准的识别及拾取。标准的识别及拾取一般存在两种方式:第一种有明确制定某项标准的需求,则通过定义(第3.2.2.2节详细介绍),确定该项数据标准描述的对象类及特性,再通过关键词扫描及智能识别技术,扫描存量数据,识别与该数据元概念一致的数据项集合,对该集合进行探查获取字段类型分布、长度范围、值域分布等,从而构建数据元的表示描述,形成完整的数据标准。第二种是暂无明确制14、定某项标准的需求,去探索是否需要对某些数据项制定标准。系统对存量数据进行扫描,遍历所选择的数据源类型中的所有字段名,提取达到重复阈值的字段名,对其制定数据标准。数据标准管理平台数据元概念免费试用在线咨询07元数据标准数据标准制定元数据标准主要规范了平台对于各类元数据及资产的表示方式和组织方式。元模型的制定数据中台是企业数字化转型的基础和中枢系统,将企业全域海量、多源、异构的数据整合资产化,但多源异构数据差异化明显,如何保证数据管理者、使用者、开发者对数据具备统一的认知是亟需解决的问题。良好元模型设计,主旨在于屏蔽底层多源异构系统的复杂度,用统一的语言来描述来自不同应用系统、存储在不同种类数据库15、的各类数据。我们知道元数据是描述数据的数据,而元模型则是关于模型的数据描述,根据OMG(对象管理组织)提出的四层元模型结构,可以清晰的表达出四层的关系:信息层模型层元模型层元元模型层基础数据由元数据组成,用于描述信息层的数据由元 元数据组成,用于定义元数据的结构和语义由元 元数据结构和语义的,描述所组成,用于描述元模型08可以看出,元数据是个相对的概念,元模型即为元数据的元数据,为了更方便大家理解,这里提供一个实例解释:元模型不仅限于表元模型、字段元模型,还包含指标元模型、标签元模型等,虽然所描述的元数据种类不同,但管理方法上都是一致的,在实践的过程中,可全部纳入数据标准进行管理,也可在对应的16、子系统中各自维护。免费试用在线咨询09命名及编码规则制定命名规则主要用于规范表名、字段名、任务名称、指标名称、标签名称等,指定某个名称应当使用哪些命名要素组成以及以何种排列顺序组成。编码规则主要用于资产编码、数据元内部标识符、标签编码、指标编码等,指定某个编码应当使用何种编码方式。因此需要指定命名及编码要素范围,一是选取平台已存在的枚举值,如数据分层、主题域或其他已存在的分类枚举;二是用户可自定义常量、自定义枚举值;三是平台提供的可变位序列。通过上述的命名要素,进行排序组合,形成命名及编码规则。以数据元为例子:第一种编码方式可以为“指定标识(常量)+7位自增序列”,可以编码为DE000000117、;第二种编码方式可以按照所在分类进行统一编码,类似于“一级分类编码+二级分类编码+三位自增序列”,比如公民身份号码数据元归属分了为”人员类(01)/信息标识类(001)“,那么可以编码为01001001,其他以此类推。数据目录规范制定数据目录提供灵活的数据组织方式,比如数仓开发人员使用数据分层、主题域来组织数据,对于数据管理者,可能更关注于资产盘点,希望能够按照来源系统、管理部门以及安全分类等多种方案进行管理。我们在制定数据目录时,需要分析用户的需求场景,在不同场景下为用户提供更合适的数据视角,便于用户取数用数。一般来说,会先提供数据来源分类、数仓设计分类、数据安全分类,分类的描述信息至少要包18、含分类名称、英文名称、内部编码,以便于在平台其他模块的应用。且分类方案支持用户在后期的管理过程中进行自定义扩充。10词根的制定词根是为了标准的命名更加规范统一,最终将被应用到字段命名或其他资产的命名上。企业可根据自身积累,对词根进行收集,形成自己的词根库,在制定数据元及字典时,可根据输入的中文名称自动根据词根翻译英文名称。一个完整的词根信息包含英文简称、英文全称、中文全称三个部分,其中文全称支持多个,保证用户在使用词根翻译时相同含义字段能够获取相同的英文简称。另外,为了便于统一管理,需对词根的编码及词根来源进行指定。数据元是基础类数据标准的具象化体现,也是数据标准管理的核心。根据数据标准规划,19、制定数据元第一种方式是对现行标准进行结构化提取,使用平台进行管理,第二种则是根据自身需要建立企业自己的专业数据元。完整的数据元应当由三部分组成,对象类、特性及表示,如下图所示,只有当对象类及其特性绑定了表示时,才能由数据元概念转变为真正的数据元。对象类:现实世界中的想法、抽象概念或事物的集合,有清楚的边界和含义,并且特性和其行为遵循同样的规则而能够加以标识;,如:车、人、订单等;特性:对象类的所有个体所共有的某种性质,如颜色、性别、年龄、价格等;表示:值域、数据类型的组合,必要时也包括度量单位或字符集,如:格式、值域、长度等;其中,值域可通过名称或码值直接给出、也可通过参考资料给出、也可通过绑20、定数据字典给出。数据元的制定基础数据标准11因此完整的数据元名称应当为:“对象类词+特性词+表示词”,如人性别代码。在理解了数据元的含义后,如何去制定数据元呢?我们可参考GB/T 18391标准的第16部分,有兴趣的朋友可以去了解下,这里结合我们的理解给出数据元的结构化描述。在制定数据元时,我们通常会从6个方面描述数据元的基本属性:标识类属性、定义类属性、关系类属性、表示类属性、管理类属性、附加类属性,如下表,这是一个综合的较为通用的数据元描述模板,在应用过程中需要根据企业实际需要,进行删减补全。免费试用在线咨询12类别标识类中文名称赋予数据元的单个或多个中文字词的指称英文名称赋予数据元的单个21、或多个英文字词的指称中文全拼数据元中文名称的汉语拼音内部标识符在一个注册机构内,由注册机构分配的、与语言无关的数据元唯一标识符版本在一个注册机构内的一系列逐渐完善的数据元规范中,某个数据元规范发布的标识注册机构经标准化主管部门授权对数据元实施注册、维护和管理的功能组织同义名称一个数据元在应用环境下的不同称谓语境产生或试用数据元的应用环境或应用规程的说明,一个语境可以时一个业务领域、信息系统、数据库、文件或数据模型等,也可以是他们的组合定义表达一个数据元的本质特性并使其区别于所有其他数据元的陈述对象类词数据元名称成分之一,表达了该数据元所属事物或概念的集合特性词数据元名称成分之一,表达了该数据元22、所属的对象类的某个显著的、有区别的特征应用约束数据元在实际应用中的相关约束分类方案根据对象的共性如:来源、构成、结构、应用、功能等将其排列或分组分类方案值一个分类方案中的某一分类的代码关系当前数据元与其他相关的数据元之间关系的一种描述关联项与【关系】连用,选择关联的数据元表示词数据元名称成分之一,表达了该数据元值域的表示形式数据类型用于表示数据元的符号、字符或其他表示的类型数据格式从业务的角度规定的数据元值的格式需求,包括所允许的最大和/或最小字符长度,数据 元值的表示格式等值域根据相应属性中所规定的数据类型、数据格式而决定的数据元的允许值的集合计量单位属于数值型的数据元值的计量单位状态数据元23、在其注册的全生存期内所处状态的标示提交机构提出对数据元进行增加、变更(导致版本变更)或废止的组织或组织内的部门提交人实际添加此数据元到系统的人提交日期添加数据元的日期审核人数据元生命周期流转的最新审核人批准日期数据元进入“标准”阶段的日期备注数据元的附加注释定义类关系类表示类管理类附加类属性名称属性描述13数据字典是参照类数据标准的具象体现,一般分为原始字典及标准字典,原始字典指源系统或生产系统中某个原始项数据内容的枚举集合,标准字典一般用于作为数据元值域而存在,在数据处理过程中需要完成原始字典到标准字典的映射,完成字典标准化工作。数据字典核心是其码值列表,码值列表至少要包含两项信息:代码、代24、码描述,必要时可增加说明字段进行补充。获得码表的两种方式:原始字典:数据库逆向采集、元数据注册时填写字段枚举值、数据探查时值域分布计算、手动录入;标准字典:现行标准的结构化提取、标准识别结果分析、手动录入。数据字典的制定数据项分类规范制定数据项分类与数据目录类似,也是为了满足在不同场景下,对不同对象的分类需求。数据项分类即是对字段级进行分类。在制定数据目录时,需要分析用户的需求场景,在不同场景下为用户提供不同的分类方案。如从管理角度,可以按照描述对象、来源文件进行划分;从数据安全角度可以按照敏感级别、安全级别进行划分等,且分类方案支持用户在后期的管理过程中进行自定义扩充。序号10未知性别21男25、性22女性499未说明的性别代码代码描述14技术标准制定数据类型映射关系主要记录不同数据源间数据类型的映射关系,便于在数据传输、分发等场景下快速建表,提升数据传输任务的配置效率。异构数据开发模板制定主要管理不同数据源的DDL语句模板,包含新增、删除、更新等,协助数据开发人员选择对应数据库节点时快速根据模板生成语句。在实际应用的过程时,会将具体的分类值关联数据元,再由数据元关联字段,做到快速分类的目的。数据标准发布一般数据标准建议遵循草案、试用、标准、废止的生命周期流转,但可根据实际情况进行简化。对于数据元、数据字典尽可能遵循此生命周期管理,对于词根、数据分类、元模型等可简化流程,可采取草案、上26、线、下线的生命周期管理。数据标准发布是在标准制定完成进入开发完成态后,可提交发布审核,审核通过后将应用于整个系统,若后续需要进行修订,则需修订完成后重新发布最新版本。另外,发布前需查看版本变化以及影响范围,评估影响后再进行发布生效,并通知相关方进行调整。15数据标准执行数据标准执行主要分两块,第一块是正在进行数据治理的各个阶段进行应用,第二块是新建系统和历史存在的业务系统的应用。数据治理过程的应用主要在(涉及数据标准与各个模块的对接,将在第5节详细介绍):?元数据:需要从业务属性、技术属性、管理属性三个方面对元数据进行描述,需要定义具体的描述?数据资产:需要对各类资产进行盘点,需要定义资产编码27、及命名规范、定义分类依据、上线标?数据质量:需要建立稽核规则,需要构建质量检测体?数据安全:需要对数据进行分级分类,需要定义数据项分类依据、敏感信息的识别依?模型设计:需要定义数据模型、数据指标、维度度量等数据的标?数据传输:需要对接不同种数据源、来源系统,需要制定不同系统、数据源间的交换依?数据开发:需要定义数据处理依据,字段及字典映射逻辑、各类数据源SQL模板新建的业务系统?必须严格按照发布的标准进行设计,通过使用平台提供的模型设计产品进行管控正在运行的系统?可以通过探查、智能识别的手段建立映射关系16数据标准检查数据标准执行后,需要进行落标检查,确认标准执行的情况以及效果。可参考相关指标28、,从标准侧进行标准的引用统计、标准化率统计,从质量侧统计表及字段质量评分,多角度去判断指标执行情况及应用效果。数据标准维护维护数据标准沉淀数据标准?在实际执行的过程中,可能现行标准发生修订,企业自身业务规则发生变化,都需要对已发布的标准进行修?修订要严格按照生命周期流转要求,记录版本变化,评估变更影响,在进行重新发布生效?随着标准的累计,我们需要沉淀所在行业的标?通过标准沉淀,建立标准资产,形成行业最佳实践,提升企业在所在行业的地位在了解了如何建立数据标准后,我们可以着手开始干了。但工欲善其事必先利其器,一个合适的数据标准管理工具可以帮助我们更方便、更高效的制定和管理数据标准。因此我们基于数据29、标准管理流程、管理内容的分析,并充分考虑不同行业对标准管理需求的不一致性,对数据标准管理产品进行功能设计,本章将详细介绍产品的各个模块。17数据标准产品介绍04Product introduction产品总体架构标准的规划首先需对企业业务和数据进行调研和分析,结合实际的数据标准需求,明确数据标准的范围。再根据实际情况的不同,逐步推进。标准概览标准资产统计标准落标统计标准流程统计配置管理数据元注册模版配置数据字典注册模版配置流程管理标准审核发布审核我的申请标准规划标准文件行业模版标准拾取标准制定词根数据元标准字典资源目录标准发布数据元发布数据字典发布发布对比标准执行标准映射模型设计元数据治理标准30、检查落标查询质量稽核模型检查18产品功能模块标准概览主要包含标准资产统计、标准化情况统计、标准流程统计,全方位评估标准建设及使用情况。19数据标准文件管理此模块用于管理当前平台参照的各类标准文件,并与已结构化的标准建立联系,保证标准来源的可信。另外,针对已经做过结构化标准提取的文件,将作为平台预置的标准模板,供用户使用。数据项标准管理数据元管理数据元管理是标准管理核心内容,支持表单及批量导入的方式录入数据元,按照标准生命周期草案、试用、标准、废止对数据元进行管理,支持数据元的批量导出,满足不同场景下查看数据元的需求。定义时也将数据元与稽核规则进行绑定,为质量检测提供依据。另外,支持数据元不同版31、本之间的比对,获取版本差异,评估标准变更存在的风险。20数据字典管理数据字典管理内容包含原始字典及标准字典,可以认为原始字典是原始数据项的值域分布,标准字典是标准数据项的值域分布。原始字典可主动录入,也可通过数据探查的值域分布进行生成;标准字典满足与数据元同样的生命周期管理,也支持批量导入导出操作。在后续的实现中,将完成从平台已有数据库中存在的字典表进行拾取,同时维护原始字典与标准字典之间的关系,方便用户在进行数据处理时快速进行字典对标。21词根管理词根管理旨在定义英文名称、英文简称、中文名称间的映射关系,为标准的命名提供规范的输入。用户在定义数据元、数据字典或模型字段时,将对输入的中文名称进32、行拆词,依据词根生成英文名称。除了已支持的词根表单录入外,后续将支持词根的批量导入,帮助用户快速导入已制定好的词根列表。22数据元分类管理数据元分类管理提供了三个层级目录类型,第一种管理的是分类目录,用户对分类方案进行归类;第二种管理的是分类方案,它是基于某种数据元分类依据(如描述对象)提供的一种分类方式;第三种是分类值,它归属于分类方案,在这一层将与真正的数据元进行挂载。因此数据元分类支持分类的基本信息管理,也支持对数据元批量进行关联以及解除关联。命名及编码规则管理命名规则及编码管理要能够将平台中已有的可作为命名要素的枚举值进行收集管理,支持用户添加自定义元素,用户可通过点击或拖拽的方式将元33、素进行组合形成命名规则及编码规则。元数据标准管理表名设计组成元素:组成元素:数据分层一级主题域二级主题域增全量后缀自定义元素表名主体dwsfirst_themetable_namestratege唯一值检测值域检测无检测值域检测23资源目录管理资源目录管理与数据项分类管理类似,但分类的对象不同,此处分类主要是对平台各类资产的编目,提供多种视角、多种方案对表、指标、标签等进行分类管理,应用于统一的资产目录进行展示,让资产可理解、可识别、易查找。数据类型映射关系管理主要管理不同数据源间数据类型的映射关系,如下表示例,随着数据源种类的增加,此模块支持多数据源类型交叉映射。源表字段类型INTBITIn34、t32BOOLEANBOOLEANUInt8FLOAT.REAL.Float32.DOUBLEFLOAT,DOUBLEFloat64Hiveclickhouse技术标准管理24DDL模板管理主要管理不同数据源的DDL语句模板,包含新增、删除、更新等,在模型设计时或离线开发时进行引用,根据选中的信息,替换模板中的参数。以mysql建表为例:标准拾取为了解决在资源有限的情况下用户能低成本、高效率地制定数据标准的问题,故产品支持了“标准拾取”的功能。“”是指对数据库中存量数据圈选后进行扫描,按照一定的重复阈值或相似度规则等进行检测,将检测结果给用户选择决定哪些数据可以制定为标准。很多企业随着业务的发35、展,都已经落地了大量的数据,这些数据均会存在一些共性的内容。如果能将这些存量数据中共性、标准的信息拾取出来,就能大大的降低标准体系建设和落地的难度,帮助企业快速建立标准。这也是“标准拾取”功能的核心价值点。标准拾取标准流程管理2526审核管理审核管理主要是对标准生命周期流转的申请以及标准的发布申请进行操作,审核人员可根据实际情况评估,选择通过或拒绝。标准发布标准发布采取整包发布的方式,若将同一批次的数据元列表发布一个大版本,保证平台的标准参考基线。需要支持查看当前更新的内容,提交发布申请,比对版本差异,支持查看发布历史等。27标准配置标准配置主要是对数据元及数据字典的元模型进行配置管理,我们提36、供了较为全面的数据标准结构化表示方法,但根据不同行业对标准描述的需要,可能并不需要这么多描述项,因此提供数据标准的元模型配置,用户可根据实际情况进行启用、停用或新增标准的描述项。数据元模板配置数据字典模板配置28在具体实施过程中,我们期望按照“需求-设计-开发-交付”流程进行建设。在需求设计阶段,应对数据现状进行摸排,确定治理范围以及标准的制定范围。从而在后续的设计中能够规范指标及模型设计,从源头上开始控制元数据及数据的质量,指导开发过程的具体实施。数据标准在治理流程中的位置以及跟各模块产生的交互,如下图所示:设计阶段元模型、词根数据元、数据字典资源分类引入或设计业务指标原子指标衍生指标复合指37、标维度事实模型关系数据汇聚数据集成服务开发服务编排服务治理现状、需求分析业务调研分层、流程、主题设计数据调研标准设计指标设计模型设计数据传输自助分析离线开发数据质量任务运维数据服务业务指标定义数据处理规范(字段映射、按格式处理)表、字段命名、分类、数据格式规范字段类型映射规范(快速建表)稽核规则定义稽核规则推荐需求阶段开发阶段交付阶段05practice数据标准和数据中台结合实践29数据传输数据传输承担着将多源异构数据集成到大数据平台以及将平台数据分发到其他库的能力,当目标库无对应表时,需要根据来源表进行建表,但不同数据源间的类型差异,需要人工进行匹配,随着数据源种类的不断增加,靠人的经验进行38、匹配处理已非常困难。标准维护的是不同数据源间类型的映射关系,在建立传输任务时,可根据映射关系快速生成目标表结构,达到快速建表、一键建表的能力。元数据元模型的配置在我们的实践中主要包含对元模型分组管理、系统内置项管理、用户自定义项管理,目前已支持对表、字段、指标、标签的元模型设计。30表元模型设计分组管理系统内置项管理31字段元模型设计 自定义项管理32标签元模型设计指标元模型设计33模型设计除了系统内置的分层外,用户可添加自定义分层对于分层下的表,需要配置表名设计规范,将选取命名要素按照一定顺序排列,得到命名规则分层规划分类规划利用数据目录管理进行分类规划,在资源目录、资产侧按照场景对数据资源39、进行编目,满足各类用户查数用数需求。如:主题域划分、来源系统划分、安全分类等。ADSDWSDWDDIMODSSTGdim(数仓层级)yh(一级主题)hy(二级主题)member_info(自定义)df(策略)34表结构及数据项标准设计设计表结构时,一方面根据填写的中文描述,自动推荐对应的数据元(若标准存在),另一方面可直接选择数据元,平台将根据选择的数据元自动回填字段名、字段类型、字段描述以及关联的标准数据字典,如下图所示:具体应用一般放在模型设计中心添加字段时进行关联:字段名字段类型字段描述数据元数据字典mem_idSTRING会员IDDE00001mem_typeINT会员类型DE000040、2DIC_00001mem_nameSTRING会员姓名DE00003.词根中文词根简称词根全称会员memmember姓名namename字典码码值描述VIP会员SVIP超级会员数据元内部标识符数据元英文名称数据元中文名称DE00001mem_id会员IDDE00002mem_type会员类型DE00003mem_name会员姓名关联回填标准字典引用定义命名规范、格式、类型、值域等词根翻译数据元引用字段类型映射35数据开发SQL编辑时根据选择的输入输出表,通过表字段关联的数据元信息,将相同含义的字段自动进行映射,快速生成SQL,用户只需对生成的SQL进行确认即可。在后续的规划中,标准将助力可视41、化ETL以及自动化ETL,协助用户进行字段映射,根据数据元关联的稽核规则、脱敏规则等,自动获取对应的处理函数,即可生成开发脚本。数据质量数据标准是数据质量稽核规则的主要参考依据,通过将数据质量稽核规则与数据标准关联,一方面可以实现字段级的数据质量校验,另一方面也可以直接构建较为通用的数据质量稽核规则体系,确保规则的全面性和可用性。数据标准DQC拉取拉取建立建立定义规则监控任务新建数据元绑定数据字典绑定规则通用稽核规则体系规则推荐自定义稽核规则推荐数据元与稽核规则关系规则列表36数据安全数据标准可包含业务敏感数据对象和属性,从而实现对数据安全管理相关规则的定义。通过数据元关联,快速生成字段级加密42、或脱敏规则。安全中心数据标准拉取加密脱敏建立建立数据元数据元与加密/脱敏规则关系定义规则规则列表安全任务安全分类数据项分类建立拉取免费试用在线咨询37总结06Sum up数据标准的建设及管理任重而道远,后续将逐步扩展标准的应用场景,满足各行业客户的需求。随着管理内容的不断丰富,管理流程的不断完善,标准将作为数据中台的基石,为各模块、各流程阶段提供规范性指导及监督。网易数帆大数据历经十余年技术沉淀,以全面的大数据技术、产品及服务,服务企业“看数”、“管数”、“用数”等业务场景,致力于为企业量身打造领先、稳定、可控、创新的全链路数据生产力平台,盘活数据资产。现已成熟应用于金融、国央企、制造、流通、43、医药等行业,成功助力300+头部客户实现数字化转型,全面释放数据价值。NO.1 产品技术实力居国内第一梯队,获评工信部大数据试点示范项目5年 连续5年入选Gartner多领域标杆厂商,通过信通院等多项首批能力认证9位 9位Apache主流项目PMC/Committer,国内唯一Databricks灯塔300+行业头部客户及合作伙伴1000+授权发明专利38模型以DataOps为核心,通过数据技术、数据资产、数据应用、数据运营四要素生生不息地循环推动数据消费,实现“人人用数据,时时用数据”,支撑数据价值在企业业务场景中落地,让产业数据真正成为可增值的战略资产。数据生产力模型聚焦:金融国央企制造流44、通医药DataOps数据技术数据资产数据运营数据应用大数据基础平台数据中台开发治理一体化湖仓一体发布中心指标中台实时计算业务指标数据标签数据标准数据模型数据质量稽核规则数据血缘数据安全分类分级数据可视化报告数字孪生大屏客户画像精准营销监管报送智能风控智能决策数据期刊数据人才培训认证数据可视化大赛数据分析大赛数据治理大赛特色方法论网易数帆在DataOps方法论之上,基于实践形成了以数据资产为中心的数据生产力模型。数据技术-数据资产利用数据采集、存取、处理、可视构建企业数据中台,协助客户沉淀数据资产。数据资产-数据应用 基于行业应用场景,通过数据应用建设方法,让数据在业务场景中发挥价值,实现数据价45、值变现。数据应用-数据运营 结合企业自身数据应用要求,关注人才培养、数据文化建设,通过持续性运营,激发数据长期效用。39产品能力矩阵 基于DataOps数据开发网易大数据基础平台 NDH数据开发治理平台EasyDataFlinkImpalaHiveHDFS/S3AmoroYarn/K8sSpark数据安全模型设计中心数据治理360数据质量指标中台数据地图元数据管理任务运维数据测试数据开发数据集成数据标准面向数据分析的数据治理体系数据服务权限申请敏感识别安全等级数据加密脱敏发布审核规范设计量化评估维度建模数据下线量化ROI成本分析价值分析质量工单强弱规则质量报告稽核监控指标关联指标字典版本管理原46、子/派子数据血缘资产门户数据检索数据目录元数据发布元数据扫描元数据注册元数据采集标准发布数据分类数据字典数据元自动化运维管理产品优势 01ROI价值模型分析精细化运营管理沉淀企业数字资产02国产底座自主可控核心代码完全掌控适配信创软硬件生态03业务平滑迁移结合业务定制迁移方案提供原厂迁移服务04统一数据资产门户自助式查数、看数、管数05DataOps开发底座数据高质量产出数据加速变现06与有数BI全链路协同数据中台业务价值最大化变现领先产品数据开发治理平台 EasyData以网易特色的DataOps方法论为核心,在业内首先提出并实现开发治理一体化。提供数据开发、数据标准、数据资产地图、数据治理47、360等全方位能力,使数据开发效率更高、数据质量更有保障,帮助企业实现数据资源化、数据资产化,满足多种业务场景需求。网易大数据基础平台 NDH(NetEase Data Hub)利用数据采集、存取、处理、可视构建企业数据中台,协助客户沉淀数据资产。底层产品指标中台集数据准备、指标定义、指标加工、资产管理、指标维护和共享为一体,为企业提供准确、一致、可信的指标服务,帮助企业进行数据资产的整合和标准化,以及对经营管理过程和结果的度量,实现基于指标的“业务数据化”、“管理数字化”。产品亮点40产品优势 有数BI一款企业级智能大数据敏捷分析平台,灵活满足企业数据收集、多维度分析、多端展示等不同阶段需求48、,具备业内领先的高性能保障和权限管控能力。充分提升用户数据分析体验,降低使用门槛,用数据连接组织各角色,实现数据驱动决策。有数Chat BI基于网易自研大模型的对话式数据智能助手。提供更便捷、灵活、可信的数据分析新模式,用户通过自然语言对话即可获得准确数据,降低数据消费门槛。私有化部署充分保障企业数据安全,为企业开启数据分析新篇章。亮点产品一数字孪生大屏零代码可搭建的3D可视化大屏,背靠网易游戏级别渲染引擎技术,提供丰富的时空数据展示,多样的数据接入与处理,易用的多场景数据交互能力,满足不同行业需求。亮点产品二响应企业多层级人员用数需求产品能力矩阵 轻量数仓(内置MPP)数据准备数据应用数据分49、析数据应用数据分析与展示数据建模数据接入全面开放对接高性能保障企业级平台管理移动应用自助取数智能决策数据门户自助式拖拽分析复杂报表移动报表数据大屏智能AI辅助分析多种高级算法报告丰富图表组件可视化数据建模多表关联、数据追加可视化ETL数据填报API接口关系型/分布式数据库关系型/分布式数据库文件类(EXCE/CSV)移动端随时随洞见数据,高效经营决策助力业务增长。自主取数用数,PPT模式的自助可视化分析报告,数据驱动智能决策。减少反复沟通,快速构建轻量级数仓,提升数据准备效能。业务人员开发人员管理人员多版本形态,满足不同类型企业需求大中型企业支持私有化部署,内网部署,信息安全绝对保障。成长型企业提供SaaS版本,灵活部署,开箱即用享高性价比。41数智领航 卓尔不凡

    下载