定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《蚂蚁集团&之江实验室:2024Graph+AI:大模型浪潮下的图计算白皮书(155页).pdf》由会员分享,可在线阅读,更多相关《蚂蚁集团&之江实验室:2024Graph+AI:大模型浪潮下的图计算白皮书(155页).pdf(155页珍藏版)》请在本站上搜索。
1、 版权声明版权声明 本白皮书由全国智能计算标准化工作组图计算研究组编著,由全国智能计算标准化工作组发布,旨在为图计算领域提供前沿动态和趋势洞察。本白皮书的著作权受法律保护,转载、摘编、翻译或利用其他方式使用本白皮书文字或观点的,应注明来源。编制说明编制说明 感谢以下专家和学者对本白皮书编制工作的鼎力支持(注:排名不分先后)。专家顾问专家顾问 林学民林学民 欧洲科学院院士、IEEE Fellow、上海交通大学讲席教授 金耀初金耀初 欧洲科学院院士、IEEE Fellow、西湖大学讲席教授 金海金海 SAC/SWG32 图计算研究组召集人、华中科技大学教授 陈文光陈文光 SAC/SWG32 图计算
2、研究组联合召集人、蚂蚁集团技术研究院院长/副总裁 石川石川 北京邮电大学特聘教授、Gamma Lab 实验室创始人 陈华钧陈华钧 浙江大学教授、OpenKG 牵头发起人 邹磊邹磊 北京大学教授、图数据库 gStore 项目负责人 张岩峰张岩峰 东北大学教授、计算机学院副院长 叶小萌叶小萌 杭州欧若数网科技有限公司创始人 张晨张晨 浙江创邻科技有限公司创始人 梁磊梁磊 蚂蚁集团知识图谱技术总监 编制组组长编制组组长 洪春涛洪春涛 蚂蚁集团图计算负责人 陈红阳陈红阳 SAC/SWG32 图计算研究组联合召集人、之江实验室数据枢纽与安全研究中心副主任 编制组成员编制组成员 蚂蚁科技集团股份有限公司蚂
3、蚁科技集团股份有限公司 之江实验室之江实验室 范志东、林恒、桂正科、郭智慧、孙梦姝、陈发强、刘永超、郑达、彭晋、崔安颀、赵培龙、李少衡、吕松霖、何雨潇、历鹏飞、陈梓康 余婷、余磊、杨林瑶、黄丹丹、蒙贵云 北京邮电大学北京邮电大学 浙江大学浙江大学 杨成、黄海 张文、张强、王鑫达 西湖大学西湖大学 东北大学东北大学 吴泰霖 陈朝亿、付振波、曹春榆、巩树凤 杭州悦数科技有限公司杭州悦数科技有限公司 浙江创邻科技有限公司浙江创邻科技有限公司 古思为、鲍翰林、方扬 周研、童冰 北京大学北京大学 北京交通大学北京交通大学 吴伟 刘钰 复旦大学复旦大学 北京海致星图科技有限公司北京海致星图科技有限公司 郑
4、卫国、张志杰 沈游人、杨帆、王铮 深圳市腾讯计算机系统深圳市腾讯计算机系统有限公司有限公司 信雅达科技股份有限公司信雅达科技股份有限公司 姚亮、何峰、谢思发、程序 林路、嵇津湘、李云波 北京枫清科技有限公司北京枫清科技有限公司 吴敏 Graph+AI:大模型浪潮下的图计算 推推 荐荐 语语 图计算技术与人工智能,特别是大模型的融合,正在为信息处理和知识表示开辟新的前沿。图结构能够有效表达数据的深层关系,图与大模型的结合显著提升了大模型的逻辑推理能力,在解决大模型幻觉等问题上展现出强大潜力。本白皮书梳理了这一领域的最新进展,并对其未来的可能性进行了分析讨论,为读者提供了一个前瞻性的理解视角。林学
5、民,欧洲科学院院士、林学民,欧洲科学院院士、IEEE Fellow、上海交通大学讲席教授、上海交通大学讲席教授 大模型时代,将图计算与 AI 深度融合有着广阔的前景和重要的影响。这一白皮书对图计算与AI 融合的关键技术、解决方案和应用案例进行了详尽的梳理,尤其在与大模型的融合、可信图计算、科学研究和产业落地等前沿研究和应用方面,做了精彩的阐述。金耀初金耀初,欧洲科学院院士、欧洲科学院院士、IEEE Fellow、西湖大学讲席教授西湖大学讲席教授 在信息科技迅猛发展的背景下,图数据和图应用逐步渗透到各行各业,图技术与 AI 的结合正在开创全新的可能性。本白皮书系统回顾了图智能的发展历程,深入讨论
6、了图的核心技术与应用场景,展现了图技术在大模型浪潮中的关键作用。本白皮书旨在帮助读者深入理解图技术的最新进展与未来趋势,期望为读者带来深刻的行业洞察,进一步推动图智能技术的广泛应用与落地。金海,金海,SAC/SWG32 图计算研究组召集人、华中科技大学教授图计算研究组召集人、华中科技大学教授 在当前科技飞速发展的时代,图计算与人工智能的结合展现出巨大的潜力与前景。图计算以其天然适应复杂关系网络的优势,为 AI 模型提供了丰富的结构化信息,使得模型不仅能够理解数据的表层特征,更能洞察其内在关联。随着大模型技术的出现,图+AI 的协同效应必将进一步放大,推动智能系统向更高层次发展。陈文光陈文光,S
7、AC/SWG32 图计算研究组图计算研究组联合召集人、蚂蚁集团技术研究院院长联合召集人、蚂蚁集团技术研究院院长/副总裁副总裁 大模型浪潮下的 AI 技术快速发展,对图计算也产生了深刻的影响。该白皮书从数据、算法、应用三个层面对 Graph+AI 的结合方式进行详尽的分析,并针对大模型带来的全新学习范式,提出了图计算面临的新问题与挑战。通过总结以往问题的多种解决方案,并在产业落地与科学研究方面提供大量应用案例,该白皮书将为相关研究者如何发展大模型浪潮下的图计算提供有效参考。石川石川,北京邮电大学特聘教授、北京邮电大学特聘教授、Gamma Lab 实验室创始人实验室创始人 Graph+AI:大模型
8、浪潮下的图计算 本白皮书以大模型技术为背景,全面介绍了图技术在数据、模型和应用等方面的发展趋势。内容涵盖图模型的方法论、详细的技术解决方案以及丰富的实际应用案例,为读者提供了全景式的图技术与人工智能融合的深度解析。陈华钧陈华钧,浙江大学计算机科学与技术学院教授、浙江大学计算机科学与技术学院教授、OpenKG 牵头发起人牵头发起人 图计算作为刻画和挖掘万物复杂关联关系的核心技术,已经广泛应用于诸多应用场景。近来大模型的强大的学习和泛化能力为人工智能的发展带来革命性地影响,如何融合图计算和最新的AI 技术,已经成为业内共识。本白皮书全面、详实地介绍了“Graph+AI”的研究进展和未来展望,值得大
9、家研读与思考。邹磊邹磊,北京大学王选计算机研究所教授、图数据库北京大学王选计算机研究所教授、图数据库 gStore 项目负责人项目负责人 本白皮书深入探讨了图数据与 AI 结合的关键技术及其在多领域的应用潜力。内容涵盖了图技术在数据挖掘、模型优化和决策增强等方面中的广泛应用场景,以及丰富的案例与详尽的解决方案,为研究者和从业人员提供了系统性指导,揭示了图技术在大模型时代的关键价值。张岩峰,张岩峰,东北大学教授、计算机学院副院长东北大学教授、计算机学院副院长 从事图技术领域多年,我们见证了图技术从学术研究到实际应用的飞速发展,本白皮书正是这一领域最新进展的全面展示和深入探讨。本白皮书紧密结合当前
10、 AI 大模型的浪潮,详细阐述了图技术与数据、算力、模型等多个关键技术的结合,无疑是所有对图技术感兴趣的读者的一本宝贵指南。叶小萌叶小萌,杭州杭州欧若数网科技有限公司欧若数网科技有限公司创始人创始人 人工智能浪潮势不可挡,图技术和 AI 的结合将带来新的机遇。本白皮书详细分享了图模型的建设方案和应用案例,是对 AI 大模型时代图技术发展路径的一次全面综述。期待本白皮书为每一位读者带来具有前瞻性和全局观的产业洞察分析,加速推动图智能的行业应用落地。张晨张晨,浙江创邻科技有限公司创始人浙江创邻科技有限公司创始人 Graph+AI:大模型浪潮下的图计算 序序 言言 在数字化时代的浪潮中,图计算与人工
11、智能这两项前沿技术在各自的发展与演变中逐渐交织,形成了一幅生动的科技蓝图。图计算作为处理复杂关系网络的一种高效工具和计算模式,其起源可以追溯到 18 世纪数学家欧拉提出的“七桥问题”。在 20 世纪 60 年代计算机科学发展的早期阶段,图计算就被应用于网络流优化、最短路径寻找等经典问题,为后续的数据挖掘、知识表示等领域提供了基础。随着大数据和互联网的迅猛发展,图计算在社交网络分析、金融风险控制、推荐系统、生物信息学等多个领域展现出了强大的潜力和应用价值。同时,人工智能的发展也在不断演变。从 70 年代的专家系统、80 年代的机器学习,到近十年来深度学习的崛起,人工智能技术已经渗透至社会生活的方
12、方面面。尤其是在自然语言处理、计算机视觉等领域,深度学习模型所取得的突破性进展,极大加速了人工智能技术的普及与商业化进程。尽管如此,传统的人工智能方法在处理非结构化或高度互联的数据时仍显不足。正是在这种背景下,图计算与人工智能的融合成为了必然趋势。在图神经网络出现之前,研究者们已经探索了多种将图计算与人工智能相结合的方法,包括图嵌入技术、概率图模型、图核方法等。图神经网络的出现,标志着图计算与人工智能开始深度结合。图神经网络通过在图结构上进行信息传播和聚合,实现了对图数据的高效建模和特征提取。这种结合不仅提升了人工智能模型在处理图数据时的表现,也解锁了图计算技术在智能化应用中的巨大潜能。近年来
13、,大规模预训练模型的兴起再次引领了人工智能技术的革命。这些模型凭借其卓越的理解和生成能力,展示了向通用人工智能迈进的可能性与“曙光”。同样的,大模型的出现也为图计算与人工智能的结合带来了新的机遇和挑战,比如,大模型的训练通常需要数量庞大且多样化的数据,图计算在捕捉数据深层次关系方面的能力为这一问题提供了潜在解决方案。而如何构建图基础模型以获得类似大语言模型的涌现能力和强泛化能力则是新的挑战。在大模型的浪潮之下,如何巧妙地整合图计算和人工智能的优势,进一步深化二者的融合,并开拓更广阔的应用前景,已经成为当前学术界和产业界共同关注的焦点。本白皮书旨在全面解析图计算与人工智能(尤其是大模型技术)的交
14、互现状,探讨其背后的原理、面临的问题与挑战、关键技术以及成功实践。希望通过本白皮书的系统梳理和案例阐述,激发更多关于图与人工智能融合创新的思考与探索,为相关领域的研究和应用提供有益的参考和启示,共同迎接一个充满无限可能的图智能未来。Graph+AI:大模型浪潮下的图计算 目目 录录 第第 1 章章 背景背景.1 第第 2 章章 问题与挑战问题与挑战.3 第第 3 章章 关键技术关键技术.6 3.1 图数据处理.6 3.2 图神经网络.8 3.3 图基础模型.18 3.4 知识图谱工程.21 3.5 图应用.38 第第 4 章章 解决方案解决方案.75 4.1 基于图数据库+AI的申请反欺诈解决
15、方案.75 4.2 基于关联分析的企业决策智能化解决方案.77 4.3 基于图算法分析的安全风控解决方案.78 4.4 图异常检测智能化解决方案.80 4.5 Graph驱动的检索增强生成技术解决方案.81 4.6 面向专业领域的知识增强生成(KAG)解决方案.84 4.7 中英双语大模型知识抽取框架 OneKE.94 第第 5 章章 应用案例应用案例.99 5.1 产业落地.99 5.2 科学研究.115 第第 6 章章 总结与展望总结与展望.135 参考文献参考文献.137 Graph+AI:大模型浪潮下的图计算 1 第第 1 章章 背景背景 自 20 世纪中叶人工智能(Artificia
16、l Intelligence,AI)概念提出以来,该领域的发展几经跌宕起伏。随着大数据领域的技术持续突破以及硬件算力的不断提升,以神经网络理论为基础的深度学习技术也逐步从“寒冬”走向各行各业。尤其是随着大模型(Large Language Model,LLM)技术的兴起,AI技术正带着人类社会迈入下一个纪元。图(Graph)计算领域也拥有着悠久的历史,最早可以追溯到 18 世纪数学家欧拉提出的“七桥问题”。伴随着大数据时代数据规模的急剧扩张以及数据关联分析复杂度的提升,图计算技术也迎来了飞速发展,并广泛地应用到社交网络、推荐系统、金融风控、生物信息等领域。图数据模型在描述复杂数据关联关系以及计
17、算可解释性上有着天然优势,将图计算技术与 AI技术相结合,并从中发掘出新的技术方向和应用场景,是非常有价值的研究课题。数据层面,传统的机器学习方法对欧几里得数据有着较好的处理,但在非欧几里得数据上性能不佳,在模态与模型的适配上存在问题。因而我们需要针对性的设计合理的数据形式及处理模型。基于图论的图计算建模方法处理非欧几何数据是合理且自然的,其以节点表示实体,将实体与其特征一一对应,以边表示关系,将实体间的关系显式表示出来。知识图谱(Knowledge Graph)则进一步在图数据上层构建了语义网络,将复杂关系建模为有标签的有向图,以表示事物之间的复杂关系。算法层面,随着深度神经网络的迅猛发展,
18、以图神经网络(Graph Neural Network,GNN)、图表示学习为代表的方法为机器学习领域带来了新的进展。众多学者尝试将深度神经网络进行合理的改造以适应图的特殊结构,借助其强大的模型性能挖掘更深层次的信息,减少参数量并提高泛化能力。受到大语言模型的启发,图基础模型通过预训练和适应性方法提升模型在各种任务中的表达能力和泛化能力。通过在广泛的图数据上进行预训练,图基础模型能够适应多种下游图任务并具备两种核心能力:涌现和同质泛化。涌现能力意味着当模型参数足够多时,会出现新的功能。同质泛化能力表明模型具有通用性,能够适应多种图任务和不同领域的应用。与语言基础模型相比,图基础模型在数据和任务
19、上存在显著差异。图数据的通用性和多样性使得开发一个“通用图模型”具有挑战。应用层面,以 LLM 为核心,结合图计算的技术方案和应用场景也在如火如荼的发展,包括但不 限 于知 识图 谱、自然 语 言转 图查 询(Text2GQL)、图 系统 优化、图 检索 增强 生成(GraphRAG),以及结合图技术的智能体(Agent)系统等。知识图谱的概念最早源自语义网的研究,目的是让计算机理解互联网中信息的语义,经过多年的发展,知识图谱已经广泛应用于医疗、金融、电商等领域。在实际应用中,知识图谱常用于存储领域知识,包括领域应用中的重要概念以及概念之间的上下位关系。Graph+AI:大模型浪潮下的图计算
20、2 构建好的领域知识图谱可以服务于各种任务,帮助算法更好地挖掘数据中的隐形关系,实现更智能的推理和决策。Text2GQL 是一种将自然语言查询转换为图查询语言(GQL)的技术,旨在帮助开发者和非技术用户更便捷地从图数据库中获取所需数据。通过理解用户的自然语言输入,Text2GQL能够自动生成相应的GQL查询语句,可以简化数据检索的过程,提高效率和准确性。图系统优化是构建工业级的图计算系统过程中需要持续解决的问题,结合 LLM 的优势,可以实现更高效的数据处理和分析、更深入的语义理解、更高效的信息检索和个性化交互等,为各种应用场景提供更有价值的洞察和决策支持。GraphRAG 在 RAG 的基础
21、上进行了改进,引入了图结构来构建知识库,并利用图中节点和边的关系来改进信息检索和生成,从而能够捕捉和处理复杂的关系和事务关联,提供更准确、更全面的问答结果。KAG 充分融合知识图谱的符号决策和 RAG 的向量检索的优势,通过知识对齐进一步克服GraphRAG信息抽取引入的噪声问题,参考 DIKW知识分层架构构建了知识与 Chunk互索引结构,在推理问答阶段使用符号逻辑引导的推理和检索有效平衡了复杂决策和信息检索。Agent 将 LLM 与现实世界打通,让 LLM 具备类人的自主工作能力,通过图计算技术可以进一步改进智能体的记忆、思考、规划以及行动能力,同时利用多智能体技术,可以进一步改进图应用
22、场景的解决方案生成,为图计算业务带来更多的价值和可能。总的来看,图计算技术与 AI 技术的结合是一个相互增强的过程。图计算的关联分析性能优势和计算可解释性可以促进 AI 领域的数据质量提升、训练推理加速,以及降低模型幻觉。AI 技术,尤其是大模型技术,可以辅助图计算系统持续的性能改进,降低图计算产品的使用门槛。Graph+AI:大模型浪潮下的图计算 3 第第 2 章章 问题与挑战问题与挑战 AI 技术使得我们能够更好地处理复杂的图数据,推动了社交网络分析、推荐系统和生物信息学等领域的发展。尽管图计算技术和 AI 技术结合已经取得了显著的进展,但依然面临着诸多的挑战。随着大规模技术的崛起,图技术
23、与大模型的结合有望成为解决这些挑战的重要途径。大模型为图数据的处理和分析提供了新的方法和视角,推动了知识图谱、图神经网络等领域的创新,但同时也带来了新的问题和挑战。图数据图数据 图数据的收集、存储和使用面临显著挑战。首先,图数据在收集过程中容易受到噪音的影响,这些噪音会沿着边传播,导致更大的危害。动态图和异质图增加了时间维度和节点、边的种类,使得存储和计算要求更高。图数据不仅需要存储节点的特征和标签,还需要存储边及其标签,这使得图的存储更占空间。此外,图数据的标注成本高,标注数据相对较少,进一步增加了处理难度。单一节点特征的信息密度高,处理难度较大,而多模态数据的统一处理也面临巨大挑战。图数据
24、的复杂网络结构和多样性导致任务需求不同,模型需要关注的信息粒度也不同。传统的数据增强方法不适用于图数据,需要针对图数据的特征、结构、标签进行分别增强。图数据的长尾效应导致度数较高的枢纽节点容易被蓄意破坏,造成较大危害。全图的存储和计算不可行,需要平衡采样大小与计算成本,针对不同特性及任务需求采取不同的采样方法才能高效计算。针对这些问题,研究者们提出了多种解决方案。例如,针对动态图的构建需要有效捕捉节点和边的时间变化的问题,研究者们提出了包括基于增量式构建的图流算法的多种动态图数据集构建方法。图数据增强面临的挑战促使研究人员开发专门针对图数据的增强技术,图结构学习就是其中一种重要的方法。为了避免
25、在全图上进行计算,研究者们发明了多种采样技术,包括随机游走采样、邻域采样、聚合采样等等。图神经网络图神经网络 图神经网络为图分析提供了一个有效的解决方案,然而,它们在实际应用中仍面临一些关键的挑战。例如,大规模图计算在性能方面存在显著不足,采样方法尚未统一,处理大规模图数据需要更高效的算法。图数据种类繁多,包括同质图、异质图模型存在本质区别,动态图和文本图带来了额外的信息处理需求,这使得模型之间的迁移和泛化能力面临严峻挑战。节点分类的不平衡问题难以解决,采用欠采样和过采样的方法获得的样本在连边上不够真实,严重影响了模型的性能。图神经网络的可解释性较差,继承了神经网络的非线性特性,加之其自身复杂
26、的结构信息,使得预测结果更加难以解释。此外,图神经网络中的节点信息会进行传递和迭代,导致梯度比其他神经网络更容易爆炸。这些挑战表明,图神经网络在处理复杂结构化数据时仍需进一步优化和提升。为了提高大规模图数据的训练和推理,通常需要分布式或/和 CPU-GPU异构架构下的训练推Graph+AI:大模型浪潮下的图计算 4 理方法。为了提升图神经网络的可信性,研究者们对图神经网络的鲁棒性、公平性以及分布外泛性等多个方面进行了深入的研究。图基础模型图基础模型 图基础模型的发展也面临诸多问题和挑战。首先,大规模图数据不易获取,图数据集的规模和多样性不足以支持大图模型的训练。其次,图任务类型多样化,节点级、
27、边级和图级任务的差异性增加了模型设计的复杂性。安全与隐私问题也是一个重要挑战,图基础模型可能面临与大语言模型类似的安全问题,如生成幻觉和隐私风险。提高模型的可信度和透明度,保护隐私是亟待解决的问题。目前,图基础模型缺乏统一的范式,尚未展现出涌现能力和强泛化能力。鉴于大语言模型在自然语言处理中的成功应用,探讨图基础模型如何获取大语言模型的涌现和强泛化能力成为一个重要的研究方向。知识图谱知识图谱 以大语言模型为代表的大模型展现了很好的自然语言理解泛化能力,并且被公认掌握了一定的世界知识,这些知识以参数化的形式存储于模型的参数中,并在推理过程中得到应用。大模型给知识图谱技术的发展带来了机遇,也带来了
28、新的问题和挑战。首先,从知识图谱构建的角度来看,大语言模型的语言理解能力是否能够降低知识图谱的构建成本,并提升其规模和质量,使得知识图谱的发展进入一个新的阶段,这是一个值得深入研究的问题。其次,大模型是一种参数化的知识表示和推理技术方案,而知识图谱是一种符号化的知识表示和推理技术方案。在大模型出现之后,如何从知识表示和推理的角度进行协作?哪些知识应该存储于大模型中,哪些知识应该存储于知识图谱中,这些都是需要解决的重要问题。大模型具有很强的任务泛化能力,可以完成许多任务,在大模型时代背景下,如何提升知识图谱技术的泛化性,以便更好地与大模型配合并保留其强大的任务泛化能力,也是一个关键挑战。总的来说
29、,大模型的出现为知识图谱的构建、推理和服务带来了新的视角,有望促使知识图谱技术在未来实现重大突破,与大模型结合,完成大模型时代之前难以实现的任务和目标。图应用图应用 首先,自然语言转图查询(Text2GQL)面临着诸多挑战。相比于相对成熟的 SQL 语法标准,图查询语言标准(ISO/GQL)尚未全面普及,目前存在多种查询语法并存的状态(如 GQL、PGQ、Cypher、Gremlin、GSQL 等),导致图数据库的使用门槛较高。Text2GQL 研究方向发展较晚,面临几个主要困难:缺乏海量数据集,鲜有公开的 Text2GQL数据集;缺乏如 Spider 数据集那样的评测标准和对应的评测数据;由
30、于数据集和评测标准的欠缺,各种大模型微调方法的效果难以在Text2GQL 领域得到验证。可喜的是,在科研工作者不断的探索之下,Text2GQL 已取得到了不错的进展,在数据集方面提出了通过语法制导的生成语料方法,并构建了对应的评测数据,在大模型微调方面,也发展出了多种技术。Graph+AI:大模型浪潮下的图计算 5 图系统优化方面,尽管图计算系统在关联性数据分析性能上有天然优势,但在系统的成熟度、计算存储性能、运维自动化、产品安全性和使用门槛上,仍有巨大改进空间。已有大量的研究将图系统与 AI、LLM 相结合,这样可以充分发挥三者的优势,实现更高效的数据处理和分析,为各种应用场景提供更有价值的
31、洞察和决策支持。近年来,大规模语言模型在自然语言处理领域取得了显著进展,提升了许多应用场景的智能水平。然而,它们在处理涉及专业领域时仍面临巨大挑战,如生成幻觉、缺乏专业领域知识、信息时效性不足、计算成本高、缺乏可解释性等问题。业界通过检索增强生成(RAG)技术对此做了一定优化,但是通用的 RAG 方法在处理文本分割与索引时无法满足商业场景下的复杂需求,如数据分块(Chunking)的粗粒度方式天然会导致分散的知识丢失,信息间跨相邻分布的关系上下文因为分割而消失,基于字面语义、通识的嵌入(Embedding)易造成误解等,因此,需要一种更精炼、准确、高效、灵活的知识获取方式,如 GraphRAG
32、。在智能体方面,尽管大语言模型已经具备了一定的思考与决策能力,但要实现与现实世界的交互,具备类人的自主工作能力,还需要大量工作,包括角色设定、记忆、思考规划以及行动等。通过工作流编排单智能体的行为是当前主流的实践手段,但依赖于人工进行的工作流编排,对用户的专家经验有较高的要求。另外,单智能体在处理复杂任务时效果不尽如人意,而采用多个智能体协同工作的策略虽能提高效率,却也带来了系统复杂性和控制难度的增加。目前,设计高效的多智能体系统尚缺乏坚实的理论基础和成熟的应用实例,不过图计算技术可能为这一挑战提供解决方案。图技术与 AI 技术,尤其是大模型的结合,为信息处理和知识管理开辟了新的路径。尽管面临
33、多重挑战,图技术在大模型时代背景下有望实现重大突破。通过不断优化和创新,图技术和 AI 技术的协同发展将推动更多复杂任务的实现,为各领域带来深远影响。在未来,图技术与 AI 技术的深度融合将进一步提升图数据处理的效率和效果,推动各行业的智能化和数据驱动发展。Graph+AI:大模型浪潮下的图计算 6 第第 3 章章 关键技术关键技术 3.1 图数据处理图数据处理 3.1.1 图数据构建图数据构建 在现实世界中,图数据可以用来描述不同领域的关系结构,包括社会科学、化学、生物学等。图数据构建是图计算的关键步骤,其任务是将复杂的现实世界关系建模为计算机可处理的数据结构,这一过程涉及对节点、边以及其属
34、性的合理抽象和表示15。节点通常表示图中所描述的对象或实体,边则表示这些对象之间的关系或交互,以社交图为例,节点表示人,边表示社交关系。节点和边通常附带有特定的属性信息,例如在社交图中,人作为节点,其属性可能包括年龄、职业等;而在分子图中,边可能表示化学键,并包含单键、双键等属性信息。节点和边的属性为图模型提供了上下文信息,使算法在计算节点或边的表示时能结合更多维度的数据,通过对这些属性信息的充分利用,图计算可以更好地刻画出节点及其关系的本质特征,从而提升模型在节点分类、链路预测等任务中的性能16。图 3.1 不同领域图数据的构建53,54,55 图数据构建主要包含数据采集与预处理、节点与边的
35、信息抽取、数据存储与转换这几个关键步骤。1)首先,需要从现实世界中收集合适的数据,这些数据可以来源于数据库、传感器等多种途径。由于收集到的数据包含噪声、不完整或冗余的信息,因此通常需要清洗和过滤,从而保证数据的质量。2)在节点与边的信息抽取阶段,需要将数据中的实体和关系映射为节点和边,并提取保存节点和边的属性信息,必要时还需要对边进行加权处理,以反映关系的重要性或强度。3)构建好图数据后,通常会将其存储为标准的图数据格式,例如邻接矩阵或边列表。在实际应用中的交互系统非常复杂,因此图数据的构建面临着多重挑战。例如,即使经过预处理,图数据中仍可能包含难以识别和处理的噪声。为了解决这一问题,研究者提
36、出了基于统计特性的噪声检测和清洗方法,如图数据去噪中的图平滑技术和鲁棒图建模算法47,这些方法可以Graph+AI:大模型浪潮下的图计算 7 通过检测异常的节点和边来移除噪声,从而提高图数据的质量。此外,许多应用中的数据往往是动态变化的,因此动态图的构建需要有效捕捉节点和边的时间变化。针对这一问题,研究者们提出了多种动态图数据集构建方法,如基于增量式构建的图流算法(Graph Stream Algorithms),它能够在数据更新时动态地调整图结构48。同时,时间维度的建模方法(如基于时序的图数据生成技术)49,能够将时间信息整合到图数据集中,以捕捉节点和边随时间变化的特性。在复杂系统中,图数
37、据往往由多种类型的节点和边构成,形成异质图。异质图的构建与存储挑战更大,因为需要合理地抽象和建模不同类型的关系。为应对这一挑战,当前提出了异质图数据集构建框架,如 HIN-Mine50,它通过对不同类型节点和边的特征提取和语义关系建模,有效构建和存储异质图数据集。通过这些解决方案,图数据集构建能够更加准确地处理现实世界的复杂数据,确保生成的图数据能够有效支持后续的图计算任务。此外,现实世界的数据常具有多模态特性,例如网页数据可能同时包含文本、图像、视频和音频等。为了综合考虑不同模态中的丰富信息,可以通过图建模的方式进行有效地整合,从而帮助挖掘多模态数据间的复杂关联信息。在多模态图学习中60,首
38、先需要对多模态数据进行异质图建模,将各模态的数据视为不同类型的节点,并根据数据点之间的关联关系构建节点间的边。例如,对于一个包含文本、图像、视频和音频的网页数据,可以为每种模态构建对应类型的节点:文本节点、图像节点、视频节点和音频节点;不同模态数据间的关联通过边来表示,例如一段文本对应一张图片时,在文本节点和图像节点之间添加一条边;如果两段文本存在关联,也可在相应的文本节点之间添加边。与传统多模态学习方法多聚焦于两种模态的关系不同,图建模能够灵活地处理多种模态数据,能有效避免训练中对某一模态的过度关注或忽视。考虑到多模态数据的复杂特性,如时序动态性等,如何对这些特性进行有效建模,在确保模态信息
39、完整和关联关系精准捕捉的前提下,使其在各种变化中具有更好的鲁棒性和持续学习能力,也是未来多模态图数据构建的重要研究课题。3.1.2 图数据增强图数据增强 图数据增强是一种通过生成、修改数据来扩展现有训练数据的技术,旨在提升图计算的性能17,61。与图像或文本数据的增强不同,图数据的结构是非欧几里得的,因此传统的数据增强操作,如裁剪或翻转,不能直接应用于图数据。这使得图数据增强面临更多挑战,并促使研究人员开发专门针对图数据的增强技术。根据增强对象的不同,图数据增强可分为结构增强、特征增强和标签增强。结构增强通过添加、删除图中的节点或边来改变图结构,从而生成新的图数据。例如,DropEdge 通过
40、随机移除部分边来增强现有数据集,从而缓解图神经网络的过平滑问题19。特征增强则通过随机掩码或添加扰动等方式修改节点特征。标签增强在训练数据的基础上生成新标签,如混合不同类的图数据并为新生成的数据分配新的标签。根据增强方法是否需要学习,又可分为基于规则的增强方法和可Graph+AI:大模型浪潮下的图计算 8 学习的增强方法。基于规则的数据增强通过预定义规则来修改图数据,无需学习任何参数,其优点在于实现简单且效率高;可学习的数据增强通过学习优化图结构或特征来生成增强数据,其通常通过模型训练迭代优化图数据结构,并在增强过程中不断改进20。图数据增强技术可以应用于有监督学习和自监督学习场景。在监督学习
41、中,数据增强主要用于缓解模型的过拟合现象,提升模型的泛化能力;在自监督学习的对比学习等框架中,图数据增强可以用于生成正负样本,通过拉近与正样本的距离、最大化与负样本的差距来训练模型。总的来说,图数据增强技术在不增加额外标注成本的前提下,生成更多训练数据或提升图数据质量,从而有效提高了图计算的性能和鲁棒性。3.1.3 图采样图采样 由于图通常包含大量节点和边,直接在全图上进行计算可能会带来巨大的时间和空间开销,因此采样技术成为了图计算中的关键技术。图采样通过选择部分节点或子图,构造能够代表原始图全局或局部特征的子集,确保在减少计算成本的同时,依然能够得到有效的学习效果。常见的图采样方法有随机游走
42、采样、邻域采样和聚合采样等。随机游走从一个节点出发,随机选择相邻节点进行访问,从而有效保留图的局部结构信息,能够灵活捕捉图的不同模式21;邻域采样从节点邻居中随机采样一部分节点,然后对这些节点的特征进行聚合计算18,能够减轻全图计算的压力,并且通过采样保持了图的局部结构信息;层次聚合采样是对图的多个层次结构进行抽象和采样,使得每个层次都保留原图的关键信息,能够在保持全局图结构的同时有效减少冗余计算,从而在大规模图上表现出良好的性能。这些方法通过不同的策略提取图的局部结构信息,从而有效捕捉图的全局特征。图采样需要考虑如何平衡样本大小和计算开销之间的关系。此外,在实际应用中,图的不同特性和任务需求
43、可能需要不同的采样策略,选择适当的采样策略,才能在实现高效的同时保证图计算的性能。3.2 图神经网络图神经网络 3.2.1 图神经网络图神经网络 图作为一种非欧几里得数据结构,具有强大的表达能力。随着图在各个领域的应用越来越广泛,对利用机器学习分析图的需求也日益增长。传统的机器学习方法在处理图数据时往往依赖于手工设计的特征,这不仅增加了数据处理成本,也限制了模型的灵活性。GNN 的出现为图分析提供了一个有效的解决方案,通过深度学习的方法自动学习图的结构特征,从而提高了模型的性能和泛化能力。Graph+AI:大模型浪潮下的图计算 9 图表示学习方法的兴起,特别是 DeepWalk、Node2Ve
44、c 和 LINE 等,为 GNN 的发展提供了基础62 63 64。这些方法通过学习低维向量表示,捕捉了图中的结构信息。但是其更多地依赖于随机游走或预定义的采样策略,这可能无法充分利用图的局部和全局结构信息。CNN 在图像领域内取得了不错的成就,但它们的通用性受到限制。图像数据等欧式数据可以认为是图数据的一个特例,如何将图像领域的成果迁移到更复杂的图网络也越来越受到了人们的关注,但是将深度神经模型扩展到非欧数据上很难定义局部卷积过滤器和池化算子,这阻碍了从欧几里得域到非欧几里得域的 CNNs 的转化65。本节依次介绍图神经网络类几种经典的卷积、池化算子并简要概述图神经网络的前沿相关的开放问题,
45、展望未来图神经网络的发展。3.2.1.1 卷积算子卷积算子 图神经网络的卷积算子根据操作域和图结构类型可分为频域(或称为谱域)和空间域卷积,以及同质和异质卷积。频域卷积利用图拉普拉斯矩阵的特征分解在谱域上定义滤波器,以捕捉图的全局结构信息,而空间域卷积直接在图的结构空间中进行局部邻域的信息聚合65。在同质图中,所有节点类型相同,卷积算子简单一致,而在异质图中,节点类型多样,卷积算子需要处理不同类型节点间的复杂关系。如下依次介绍几个比较经典的卷积算子。1、GCNConv GCN(Graph Convolutional Network)是一种经典的谱域的图卷积算子66,其是基于图信号处理理论的一种
46、方法。谱域卷积网络是通过在图的谱域上进行操作来实现卷积的,类似于传统卷积网络中的频率卷积。在图上,节点和边的关系可以用“频率”来描述,类似于我们用频率分析声音或图片。我们通过图的拉普拉斯矩阵来计算这些频率。在频率空间上卷积,可以理解为用某种“滤镜”处理图上的数据,提取出有用的信息。图的卷积操作就是将图的信号(节点特征)在频率空间上进行滤波。但是直接做频率计算很慢,因此 GCN 使用近似方法来加速。这个近似通过数学方法把复杂的操作简化为图上节点和邻居之间的“信息传递”。GCN 的操作可以看作是每一层,节点和它的邻居交换信息,通过权重矩阵和非线性激活函数来更新节点的特征。2、SAGEConv Gr
47、aphSAGE(Graph Sample And Aggregation)是一种基于 MPNN(Message Passing Neural Networks)架构改进的图卷积方法,特别适合处理大规模图67。它的关键特点是通过采样和聚合节点的邻居来进行特征更新,在大图中,每个节点可能有成百上千的邻居,直接使用所有邻居更新特征代价太大。GraphSAGE 通过随机采样每个节点的一部分邻居,减少计算负担。每个节点通过它采样到的邻居节点进行特征聚合。聚合方式可以有多种,比如求平均(mean)、求和(sum)、最大值(max)等。聚合邻居特征后,节点会结合自己的特征来更新,类似于将“邻居的影响”和“自
48、身的信息”一起考虑。GraphSAGE 的设计让它非常适合在超大图上使用,因为它只采样部分邻居,所以计算量不会随着图的大小成比例增加。Graph+AI:大模型浪潮下的图计算 10 3、GATConv GAT(Graph Attention),图注意力网络是通过注意力机制在图结构数据中进行节点特征更新的68。与其他图卷积网络不同,GATConv 通过自适应地为每个邻居分配权重,重点关注对节点最重要的邻居,GATConv 引入了注意力机制,允许每个节点赋予不同邻居不同的重要性。在传统的 GCN和 GraphSAGE中,节点与所有邻居的影响通常是均等或固定的(例如通过平均聚合),但在 GAT 中,每
49、个邻居会被分配一个自适应的权重,反映它们对当前节点的重要程度。节点的特征聚合不再是简单的平均或求和,而是通过加权求和。每个邻居的特征都会乘以一个注意力权重,这个权重是通过节点之间的特征相似性计算得到的,每对节点的注意力分数是通过一个可学习的注意力函数计算的,计算出它们的相似度,并用这个相似度作为注意力权重。4、RGCNConv RGCN(Relational Graph Convolution)是图卷积网络的一个扩展,专门用来处理异构图,即图中的边有不同的类型或关系69。在 RGCN 中,节点之间的连接不仅仅表示简单的邻居关系,还表示不同类型的关系。RGCNConv 通过引入关系类型的概念,帮
50、助网络处理更加复杂的图结构数据,特别适合像知识图谱这样的场景。在普通的图卷积网络中,所有节点的连接边都是相同的,没有区分不同的关系类型。而在 RGCN 中,每条边都表示一种特定的关系类型,例如在知识图谱中,“人”可以通过“朋友关系”连接到其他“人”,也可以通过“工作关系”连接到一个“公司”。RGCN 通过对不同关系类型分别处理,使得模型能在复杂的异构图中工作。对于每一种关系类型,RGCN 会为其单独计算一个卷积操作。这意味着在 RGCN 中,每个节点的特征更新要考虑到所有不同关系类型的影响。与标准的 GCN 类似,RGCN 也是通过邻居节点的信息来更新每个节点的特征。不同之处在于每个邻居节点的
51、特征聚合过程要根据关系类型来区分。3.2.1.2 池化算子池化算子 在计算机视觉领域,卷积层通常跟随一个池化层以获得更通用的特征。复杂和大规模的图通常具有重要的分层结构,对于节点级和图级分类任务非常重要。池化算子主要用于对图进行下采样和特征聚合,帮助模型从复杂的图结构中提取更具全局性的表示。在图神经网络中,池化层通过减少节点或边的数量,对图进行下采样。这种降维操作帮助简化图结构,降低图的复杂度,保留重要的子结构,从而使模型能够在更低维的空间中进行学习,池化层可以通过在图的不同区域进行聚合,帮助模型从局部信息转向全局信息。对于大型图,逐层池化可以使模型获得更加抽象和全局的图表示,进而捕捉图的宏观
52、结构,提升模型在图分类等任务中的性能。1、SimplePool SimplePool 通过不同的节点选择策略直接学习图级别的表示。在一些变体中,这些模块也被称为读出函数。一些模型使用简单节点池化方法。在这些模型中,对节点特征进行节点最大值/平均值/求和/注意力等操作,以获得全局图表示。Graph+AI:大模型浪潮下的图计算 11 2、DiffPool DiffPool(Differentiable Pool)是图神经网络中的一种经典的分层池化方法,它通过可微分的方式学习图的层次化结构,从而实现图的多层级抽象和下采样70。相比于简单的池化方法(如最大池化或平均池化),DiffPool 不仅仅是简
53、单地聚合邻居节点的特征,而是动态地学习如何将节点聚类到某些超节点上,形成图的更紧凑表示。DiffPool 的关键在于通过神经网络直接学习图的层次结构,并且这个结构可以在模型的训练过程中动态调整。它通过学习一个软分配矩阵,将图中的节点映射到若干聚类,然后在每个聚类中进行特征的聚合。DiffPool 能够自动学习图中节点之间的聚合关系,从而动态生成更小的图。它能够处理具有复杂拓扑结构的图,而无需事先指定图的层次信息。通过逐层池化和聚合,DiffPool 可以捕捉到图的全局结构。每一层都对图进行下采样,使得最终的输出是图的紧凑、高层次表示,有助于提升图分类、聚类等任务的性能。对于节点数不固定或结构多
54、样的图,DiffPool 提供了灵活的处理方式,通过学习层次结构来适应不同的图结构,尤其适用于图分类任务。3、gPool gPool(Graph Pool)是图神经网络中的一种经典的分层池化方法,它通过学习节点的重要性得分来选择节点,并动态地对图进行下采样71。gPool 的核心是通过一个可训练的得分函数来计算每个节点的重要性分数。这个分数用于选择节点,从而将图的结构和节点特征压缩为更简洁的形式。它不仅可以减小图的规模,还能保留重要的结构信息,增强图神经网络的全局表示能力。gPool 使用一个可训练的投影向量来计算每个节点的得分。得分通过节点特征与投影向量的内积来计算,用来衡量它的重要性。gP
55、ool 按得分从高到低排序,并选择得分最高的前 k 个节点。这个 k通常为总节点数的一个固定比例。通过这种方式,gPool 保留得分最高的节点,并丢弃得分较低的节点。4、SAGPool SAGPool(Self-Attention Graph Pool)是一种基于自注意力机制的图神经网络池化方法。它通过学习节点的重要性得分来对图进行下采样,并保留图中的关键结构。SAGPool的主要贡献在于,它将图卷积与自注意力机制相结合,动态选择图中的重要节点,从而在降低图的复杂度的同时,保留图的全局和局部信息72。SAGPool 利用图卷积层(GCN)来计算每个节点的重要性得分。通过图卷积操作,每个节点不仅
56、考虑了自身特征,还聚合了其邻居节点的信息,从而形成一个全局性的节点表示。SAGPool使用自注意力机制为每个节点分配得分,根据得分的大小对节点进行排序,并选择得分最高的前 k 节点。k 通常是节点总数的一个比例。这一过程可以通过阈值控制或动态比例来实现,被选择的节点会形成一个新的子图,保留的节点的特征和结构将继续用于后续的网络层处理。特征矩阵和邻接矩阵会根据选中的节点进行更新,以仅包含这些关键节点及其对应的边。SAGPool的自注意力机制允许每个节点通过邻居的特征计算其重要性,这种机制能在池化过程中保Graph+AI:大模型浪潮下的图计算 12 留全局上下文信息。因此,SAGPool不仅通过图
57、卷积捕获局部信息,还通过自注意力机制为每个节点分配权重,增强池化操作的表达能力。5、EdgePool EdgePool 是一种图神经网络中基于边坍缩的经典分层池化方法,它主要通过对边进行池化来减少图的复杂性。这种方法在图的降维过程中不同于传统的节点池化方法,而是通过学习重要的边来优化图结构,从而得到一个精简但具有重要结构信息的子图73。EdgePool 的核心在于通过对图的边进行池化来实现图的下采样。它通过学习每条边的重要性来选择保留的边,从而得到一个更加紧凑的图表示。相较于节点池化方法,EdgePool 专注于保留图的关键边,保持图的结构完整性。EdgePool 使用一个学习到的边权重来评估
58、每条边的重要性。这些边权重可以通过神经网络计算得到。根据边的重要性得分,EdgePool按得分从高到低排序,并选择得分最高的前 k个边。边的选择过程可以通过设置阈值或按比例选择来实现,在选择了重要的边之后,EdgePool 会更新图的邻接矩阵,保留这些关键边。更新后的邻接矩阵仅包含保留的边的信息。节点的特征矩阵 X 也会保持不变,但图的结构被简化为仅包含重要的边。在更新图的结构后,EdgePool 会根据保留的边来重新聚合节点特征。节点的特征通过邻接矩阵中的边信息来重新计算。3.2.1.3 展望展望 尽管图神经网络(GNN)在各个领域取得了显著成功,但它们在实际应用中仍面临一些关键挑战和开放问
59、题。鲁棒性:鲁棒性:GNN 易受到对抗攻击,这些攻击不仅针对节点特征,还涉及图结构信息。尽管已有一些防御方法被提出,但仍需进一步增强模型的鲁棒性,以应对复杂的对抗攻击。可解释性:可解释性:GNN 通常被视为“黑匣子”,缺乏明确的解释能力。虽然已有少数方法尝试为GNN 模型提供示例级别的解释,但在现实应用中,提升 GNN 的可解释性仍然至关重要。图预训练:图预训练:类似于计算机视觉和自然语言处理中的预训练方法,图数据的自监督学习和预训练也显示出潜力。然而,目前在图预训练领域仍面临许多挑战,如设计有效的预训练任务和评估现有模型的学习能力。3.2.2 训练和推理训练和推理 3.2.2.1 图神经网络
60、执行模式图神经网络执行模式 图神经网络是一种用于处理图结构数据的深度学习模型,旨在同时捕捉拓扑信息和特征信息。图神经网络通过堆叠多个图广播层为图中的每个节点生成一个包含聚合邻居信息和特征信息的嵌入表示。具体来说,每一层的计算模式可以被抽象成四个计算步骤81 82 83:ScatterToEdge,Graph+AI:大模型浪潮下的图计算 13 EdgeForward,Gather&Aggregate,Vertex Forward。下图是一个单层计算模式的示例(以节点 2 为例)。图 3.2 图神经网络计算过程 ScatterToEdge 是一个边消息生成操作,用于将源节点和目的节点的表示向量(属
61、性向量)发送到边上用于参数化的神经网络计算;EdgeForward 是一个定义在边上的神经网络计算,通过合并源节点和目的节点的表示来计算边上输出消息;Gather&Aggregate 是一个聚合计算,用以接收边上的信息并进行聚合(如求和、平均等)以更新自身表示 VertexForward 是一个定义在节点上的神经网络计算,通过神经网络来更新聚合的信息节点表示。新的节点表示再进入下一层执行计算。通过堆叠多个图广播层可以构建一个深层的图神经网络任务以扩大节点聚合信息的范围。最终,经过多层计算得到的节点嵌入可以用于下游计算任务,例如节点分类,图分类等。根据运行环境和应用场景,GNN的训练和推理可以分
62、为单机 GNN 和分布式 GNN。单机 GNN 的训练和推理是指在单个计算节点上完成 GNN 模型的训练和推理,适用于数据规模相对较小或计算资源较为有限的场景。它具有实现简单、易于调试的优点,但在处理大规模图数据时会面临计算瓶颈和内存限制的问题。分布式 GNN 的训练和推理则通过将计算任务划分到多个计算节点上进行并行处理,以应对大规模图数据和复杂的模型训练。分布式 GNN 能够显著提升计算效率和模型性能,但其实现相对复杂,需考虑计算节点之间的数据传输和同步问题。总体而言,选择使用单机或分布式 GNN 取决于具体的应用需求和计算资源的可用性。3.2.2.2 CPU-GPU 异构架构下的训练推理异
63、构架构下的训练推理 在 CPU-GPU 异构框架下的训练和推理中,全图训练与微批量训练有着不同的挑战。全图训练指的是使用数据集中全部节点的全部邻居执行 GNN 训练;而微批量训练只针对部分有训练标签的节点,对它们执行采样算法,即只使用部分邻居进行 GNN训练。全图训练中,内存资源是首要限制。有限的 GPU 内存可能无法一次性加载整个大图。NeutronStar84使用分块的技术,将大图分为多个子图,在训练过程中逐块加载到 GPU进行训练。然而,全图训练使用全邻居聚合范式以及全局梯度下降算法,子图之间的共同邻居需要被频繁传输,并且子图训练产生的中间结果需要持续累积,直到反向传播阶段才能释放。因此
64、,ROC85提Graph+AI:大模型浪潮下的图计算 14 出将中间数据从 GPU 传回 CPU,但这严重增加了传输量。HongTu86使用了重计算技术通过重新计算代替存储(传输),并且通过缓存邻居减少了频繁的信息传输。微批量训练中,采样-聚合-训练的范式已经成为广泛应用的策略。该范式将训练过程分解为三个独立的步骤:图采样、特征提取和训练,并将这些步骤部署在不同的计算设备上,以实现高效的计算性能。异构环境下的 GNN训练包括以下方法:第一,CPU 采样、特征提取,GPU训练。这种方法引入了显著的内存访问开销。第二,将采样、提取放置在 GPU 执行,CPU 仅负责存储全图的特征。这种方法仍然存在
65、频繁的数据传输。此外,为了提高大规模图数据的训练效率,CPU-GPU 之间的数据传输,缓存以及流水线并行等策略被频繁应用。数据传输是指数据在 CPU和 GPU之间的交换,主要通过 PCIe或 NVLink等高速总线完成。通常,图数据和节点特征存储在 CPU 的内存中,训练时,CPU 将需要的数据传输到 GPU。这包括采样后的子图结构和相应的节点特征。在这个过程中,通信的效率直接影响系统的整体性能。因此,一些优化传输的策略如下:第一,将频繁使用的节点特征缓存到 GPU 内存中,避免重复传输数据。第二,将较简单的任务(如采样)放在 CPU 执行,而将计算量大的任务放在 GPU 执行,以此均衡两者的
66、负载,减少资源争用问题。缓存技术指的是将频繁访问的节点特征、邻接关系或嵌入预先存储在 GPU 内存中,以减少频繁的 CPU-GPU 数据传输,有效减少了 CPU-GPU 之间的通信负担,从而提升性能。例如,NeutronOrch87通过热度感知的嵌入重用技术可以识别训练中频繁访问的“热节点”,并将这些顶点的嵌入数据预先存储在 GPU 中,从而提高训练效率。DUCATI29不仅缓存节点特征,还缓存一部分常用的图拓扑进一步提高采样、训练的效率。流水线技术是指异构设备并行处理不同的任务。在分批次训练时,数据通常是逐批加载的,缓存部分子图或节点特征到 GPU 有助于加快每批次的处理速度。为了进一步优化
67、,NeutronOrch1通过超批次流水线技术将多个批次组合在一起,让 GPU 和 CPU 任务并行执行,以减少空闲等待时间。3.2.2.3 分布式训练推理分布式训练推理 在分布式图神经网络系统训练和推理中,为了提高大规模图数据的训练效率,通常需要结合多种策略来优化计算和通信性能。这些策略主要包括并行加速、图划分、通信优化和迭代加速等方法,它们从不同的角度解决分布式环境下的计算负载、通信开销和模型收敛性问题。并行加速策略主要包括流水线并行88、数据并行89和张量并行90。流水线并行将模型按层划分,不同设备同时处理不同批次不同层的数据并更新各自的参数;数据并行则将数据划分给多个设备,每个设备拥有
68、完整的模型副本,独立进行前向和反向传播后汇总梯度更新模型;张量Graph+AI:大模型浪潮下的图计算 15 并行通过将节点特征或嵌入按维度切分到多个设备,每个设备处理一部分张量并同步必要信息,最终汇总梯度完成模型更新。图划分策略则包括哈希、Metis91、Metis-extend 和流式划分四种方法。哈希划分通过随机映射顶点以平衡负载,但未考虑图神经网络的 L 跳邻居关系,通信负载较重;Metis 通过最小化割边将图划分为大小相等的子图,并尽可能减少子图之间连边,从而减少通信;Metis-extend 进一步优化了 Metis 算法,使用聚类算法和额外约束,确保子图中的邻居集中同时也平衡不同子
69、图的节点和边的数量;流式划分则采用动态策略,虽然其优先考虑减少子图间连边从而减少通信开销,但未能充分考虑图的密度和 L跳邻居的分布,可能导致计算和通信负载不平衡。通信优化算法旨在通过提升通信效率来改善训练性能,分为无损和有损两类。无损通信优化通过优先级缓存92和部分缓存93等技术对节点特征数据进行缓存,显著提高了数据缓存利用率和传输效率,并确保模型的准确性不受影响。有损通信优化则通过边界节点的随机采样、选择性丢弃部分节点数据94以及对通信数据进行量化95,减少了传输数据量,不过也降低了数据的精度。尽管有损策略引入了精度损失,但适度的削减在保证模型性能的同时,有效缩短了训练时间,显著加速了整个训
70、练过程。迭代加速策略通过同步异步混合模式优化训练效率与模型准确性之间的平衡。该模式结合了同步和异步机制,适应不同的网络和计算需求,提升训练性能。陈旧的同步并行(SSP,Stale Synchronous Parallel)中的有界陈旧性允许异步训练96,并在固定迭代次数后进行同步更新。这样既能利用异步训练的高效率,又能通过定期同步保证模型的收敛性和稳定性。SSP 的这种灵活性使得它能够更好地适应不同的硬件和网络环境,在多节点分布式训练中有效平衡性能与准确性。3.2.3 可信图机器学习可信图机器学习 随着图神经网络的迅速发展,它们在处理图结构数据方面显示出了卓越的能力,被广泛应用于金融分析、交通
71、预测、药物发现等高风险场景。然而,尽管图神经网络在真实世界中具有巨大的潜力,最近的研究显示它们可能泄露私人信息、易受对抗性攻击、可能从训练数据中继承并放大社会偏见,并且难以泛化到分布外数据,这些风险可能无意中对用户和社会造成伤害。例如,已有研究表明,攻击者可以通过在训练图上进行微小的扰动来欺骗图神经网络,使其产生他们期望的结果;在社交网络上训练的图神经网络可能将歧视嵌入其决策过程中,加强了不希望看到的社会偏见。因此,从多个方面提升图神经网络的可信性,如图神经网络在鲁棒性、公平性、以及分布外泛化等方面,以防止这些潜在的伤害,并增加用户对图神经网络的信任变得尤为重要。3.2.3.1 图神经网络的鲁
72、棒性图神经网络的鲁棒性 深度学习模型通常缺乏对抗鲁棒性,即模型很容易误分类对抗样本。对抗样本是经过精心设计或修改的输入样本,目标是误导模型产生错误的预测结果或降低模型的性能。只有模型对对抗Graph+AI:大模型浪潮下的图计算 16 攻击能够保持稳定的性能,模型才是对抗鲁棒的。对于图像分类任务,攻击者可利用梯度信息构造微小扰动,添加到原始图片以生成对抗样本,使人眼难以发现对抗样本与原始样本的区别,但深度学习模型会以很高的概率将对抗样本错分为其他类别。这表示深度学习模型的假设或设计存在漏洞,依赖于一些非本质的特征,例如模型通过复杂深度模型建模的数据间的统计特征。这将阻碍深度学习模型在法律、金融、
73、医药、军事、人脸识别、自动驾驶等安全敏感领域的应用。为此,对抗攻击作为一个强大的安全分析工具,常被用于探测深度学习模型的漏洞、发现安全隐患,构建可信的人工智能系统。随着对抗攻击的发展,揭示出了模型的脆弱性,而相应的多种防御技术也相继被提出。这个领域在攻防竞赛过程中进一步深入探索了深度学习鲁棒性3。作为深度学习在图上的扩展,图神经网络也可能存在着对抗风险,考虑到图神经网络已在各个领域被广泛应用,研究其对抗鲁棒性具有重大实际意义。然而,图神经网络有着不同于深度学习的对抗鲁棒性:一方面,不同于图像具有连续的像素特征空间,图神经网络应用的图数据包含着特征、拓扑以及标签等多类型数据,且拓扑结构信息是离散
74、的,这给扰动的生成以及不可见扰动的定义带来巨大挑战;另一方面,图数据中不同实例(节点)之间并非完全独立,实例之间存在着关联关系(边),即操纵一个实例可能通过消息传递影响到其他实例。因此一些研究者开始深入探索图神经网络的鲁棒性,如图所示,在原始图上生成微量的拓扑扰动和特征扰动,使得图神经网络错误预测目标节点的标签。具体而言,研究者尝试向拓扑攻击模型中引入更精确的梯度近似方式以生成高效离散拓扑扰动,并重新定义了拓扑结构下的隐蔽性,例如通过限制扰动边总个数来达到隐蔽扰动。随着人们对于图神经网络安全性的关注,图对抗攻防研究不断取得新的进展。主要研究方法有:对抗训练:对抗训练:对抗训练是一种流行且有效的
75、方法,广泛应用于计算机视觉中防御逃避攻击。这种方法同时生成可以欺骗分类器的对抗样本,并让分类器对原始样本及其扰动版本给出相似的预测,从而提高分类器的鲁棒性。同时,对抗训练这一方法也被用于防御图对抗攻击。认证鲁棒:认证鲁棒:虽然多种方法如图对抗训练可以提高对对抗样本的鲁棒性,但总有可能会开发出新的攻击方法使得防御措施失效,导致一场无休止的攻防赛。为了解决这个问题,最近的工作开始分析图神经网络的认证鲁棒性,以了解最坏情况下的攻击将如何影响模型。认证鲁棒性旨在为潜在扰动下仍然鲁棒的节点提供证书。这些证书通过解优化问题获得。此外,还可以通过随机平滑技术注入噪声到测试样本中以减轻对抗性扰动的负面效应,并
76、提供认证保证。这种方法证明了在特定条件下图神经网络的预测是稳定的。3.2.3.2 图神经网络的公平性图神经网络的公平性 公平性是可信图神经网络中最重要的方面之一。随着图神经网络的迅速发展,图神经网络已被应用于多种场景。然而,近期的研究表明,类似于传统机器学习模型处理独立同分布数据时所Graph+AI:大模型浪潮下的图计算 17 表现出的问题,图神经网络也可能因数据中存在的社会偏见而给出不公平的预测结果。例如,在图神经网络的书籍推荐系统中,因为男性作者较多,图神经网络可能偏向于推荐男性作者的书籍,表明图神经网络可能对少数群体存在歧视,从而导致社会问题。此外,这种歧视可能严重限制图神经网络在其他领
77、域的广泛应用,如职位申请者排名和贷款欺诈检测,并可能引起法律问题132。图 3.3 图神经网络增大偏见132 训练数据中的偏见甚至可能通过图神经网络的图拓扑结构和消息传递机制被放大,如图所示,不同颜色的节点代表具有不同敏感属性的节点,(a)中不同敏感属性的节点在图上均匀分布,是无偏图,(b)中属于同一敏感属性的节点更容易聚集在一起,是有偏图。在有偏图上经过消息传递后,特征输出空间中属于同一敏感群体的节点的特征聚在一起,不同敏感群体的节点的特征更加区分开,所以模型可以根据某个节点的特征判断该节点属于哪一个敏感群体,从而利用这一信息做出歧视性的预测。因此,确保图神经网络不对用户表现出歧视至关重要。
78、为此,最近涌现了许多研究,旨在开发公平的图神经网络,以实现不同任务上的各种公平性。主要研究方法如下:对抗去偏对抗去偏:对抗学习最初被用于处理独立同分布数据的公平机器学习模型中,目的是消除偏见。这种方法已被扩展到图结构数据。在对抗性去偏的过程中,使用一个对抗模型来预测编码器生成的表示中的敏感属性。编码器的目标是生成能够欺骗对抗模型并且能够准确预测任务结果的表示。通过这种方式,最终的表征将不包含任何敏感信息,从而确保预测结果与敏感属性无关。添加公平性约束:添加公平性约束:除了对抗性去偏之外,直接在机器学习模型的目标函数中添加公平性约束也是一个常用的方法。这些约束通常基于公平性定义。这些公平性约束作
79、为正则化项存在,目的是在保持预测性能的同时,平衡模型的公平性。这样的目标函数结构有助于在不牺牲模型实用性的前提下,实现预测的公平性标准。Graph+AI:大模型浪潮下的图计算 18 3.2.3.3 图神经网络的分布外泛化图神经网络的分布外泛化 尽管图神经网络取得了显著的成功,现有文献普遍假设测试和训练图数据来自相同分布,即分布内假设。然而,在现实世界中,这种假设很难得到满足,测试与训练图之间的分布偏移不可避免,这些经典的图神经网络缺乏分布外泛化能力,在分布偏移下性能显著下降。因此,开发能够在图上进行分布外泛化的方法显得尤为重要,特别是对于高风险的图应用,例如分子预测、金融分析、刑事司法、自动驾
80、驶、粒子物理学、疫情的流行预测、医疗检测,以及药物重定位等。分布外泛化算法旨在未知分布偏移下实现令人满意的泛化性能。由于越来越多的处理实际场景中未见过的数据的需求,图上的分布外泛化自然成为一个有前景的研究方向,以促进图机器学习模型在现实世界场景中的部署。图分布外泛化的主要研究方法如下:图数据增强技术:图数据增强技术:图数据增强技术依赖于训练数据的多样性和质量,以提高图模型的泛化性能。通过适当的图增强技术,可以简单地获得更多的图实例进行训练。图数据增强的方法通常归纳为三种策略:结构增强、特征增强以及混合类型增强。结构增强涉及修改图的拓扑结构,例如添加或删除节点和边;特征增强则是修改节点或边的特征
81、;混合类型增强同时结合结构和特征的修改。这些增强方法旨在通过增加训练数据的代表性和丰富性,提高模型在未见过的数据分布上的表现。特定图模型设计:特定图模型设计:除了通过增强输入图数据以实现良好的分布外泛化外,还有一些研究专门设计新的图模型,引入一些先验知识到模型设计中,使得图模型具有改善分布外泛化的图表征的能力。在这一类方法中,两种流行的技术是基于解耦的图模型和基于因果关系的图模型。基于解耦的图模型通过分离表征中的相关因素来提高泛化能力;而基于因果关系的图模型则利用因果推断原理来设计图结构,从而使模型能够更好地理解和适应数据分布的变化。这些技术通过在模型设计阶段引入结构化的知识,助力模型在面对实
82、际应用中数据分布变化时,依然能保持较好的预测性能。3.3 图基础模型图基础模型 近年来,图神经网络和大型语言模型的融合引起了广泛的关注。图大模型旨在处理大规模的图数据,为复杂的图推理任务提供强大的工具。然而,由于图数据的复杂性和非结构化特点,构建高效、可扩展的图大模型面临诸多挑战。首先,大规模图的存储和计算需求巨大。在模型训练和推理过程中,计算复杂度高,容易导致内存和时间成本过高。这对硬件资源和算法效率提出了更高的要求。其次,在处理不同类型的图数据时,模型需要具备良好的泛化能力,能够适应不同规模和结构的图,同时保持高效的性能。这对于模型的架构设计和训练方法都是一大挑战。此外,相较于自然语言处理
83、领域,图数据集的规模和多样性较为有限,缺乏统一的评估基准。这使得模型性能的客观评估和比较变得困难,阻碍了领域的进一步发展。Graph+AI:大模型浪潮下的图计算 19 3.3.1 图基础模型概念图基础模型概念 图基础模型的具体定义是指在广泛的图数据上进行预训练并能够适应多种下游图任务的模型97。图基础模型应具有以下四方面的核心能力57:1、缩放法则缩放法则:模型性能随着参数规模、数据集规模和训练计算量的增长而持续改进,预期大图模型也应展现出小规模或中等规模图学习模型所不具备的新能力。2、同质泛化能力:同质泛化能力:具备同质泛化能力的预训练的大型图模型,能统一处理不同领域的图数据和任务。模型需理
84、解图的内在结构,拥有图的常识知识。图基础模型应理解图上下文(节点、边、子图和全图),无需过多修改。此能力与少样本/零样本学习、多任务学习和分布外泛化相关,使模型利用预训练知识快速适应新数据。3、多任务适应性:多任务适应性:图数据中的任务类型多样化,主要可以分为三大类:节点级任务、边级任务和图级任务,每一类任务都涉及广泛的应用领域。每类任务在数据结构、目标函数以及优化方式上都有显著差异。能够有效处理并统一不同任务是图基础模型真正同质泛化和普适化能力的关键。4、图推理能力:图推理能力:图基础模型需理解图拓扑结构,如大小、度数、节点连通性,并进行多跳推理以利用高阶信息。这能力增强决策可解释性,类似思
85、维链,还需处理全局结构与复杂模式,如中心度和动态图演变。3.3.2 图基础模型研究路径图基础模型研究路径 虽然图基础模型有许多值得期待的能力,但目前尚未出现如 ChatGPT 一样成功的图基础模型。现有工作主要从以下几个方面来推进图基础模型的发展。1、图数据资源:图数据资源:构建大规模、多样化的图数据集对于训练稳健模型至关重要。图基础模型的构建必须考虑图数据的独特特性。首先,根据不同的数学建模方法,图数据可以分为同质图和异质图。对于图基础模型来说,处理异质图的难度更大,这需要对主干网络进行特定的设计和优化。其次,现实世界中的图数据集规模可能非常庞大,处理如此大规模的图数据一直是图学习领域的挑战
86、。对于图基础模型来说,海量且高度互联的图数据对模型的能力提出了更高要求。此外,图数据所涵盖的领域多样性也是一个显著特征。图基础模型需要能够处理跨领域的数据,并理解不同领域中图的底层语义信息。2、图表示基础:图表示基础:研究如何有效地表示图结构,平衡表达能力和计算效率是图基础模型深入理解图结构本质及规律的前置基础。图嵌入、图卷积网络、图注意网络、图同构网络等技术能实现图结构的基础表示能力。社区检测、子图匹配等分层和局部表示技术能通过识别和利用图中的重复模式和结构,能够在保留关键特征的同时降低计算复杂度。稀疏化、节点抽样和图近似等图降维与压缩,确保在减少数据规模的同时尽可能保留重要信息。Graph
87、+AI:大模型浪潮下的图计算 20 3、图基础模型的开发:图基础模型的开发:探索大规模图数据的架构、预训练和后处理技术,增强LLM的图理解和推理能力。指令微调和提示策略有望弥合文本模型与图推理任务间的差距,通过指令微调将图领域知识融入 LLM,提升图任务表现,为结合 LLM 和图推理提供新途径58。代表性的图基础模型开发技术包括提示学习(prompting)、高效参数微调(parameter-efficient fine-tuning)、模型对齐(alignment)和模型压缩(model compression)等。下面简要总结用于图模型的适配技术57。4、基准和标准:基准和标准:NLGra
88、ph 是一个用于评估语言模型在纯自然语言描述下解决基于图的问题的基准。该基准包含 29,370 个问题,涵盖了八个不同复杂度的图推理任务,例如最短路径寻找、连通性检查和图同构58。像 NLGraph 这样的基准的引入对于评估进展和确定改进领域至关重要。标准化的数据集和评估指标使社区能够在不同模型和方法之间进行有意义的比较。3.3.3 图基础模型发展方向图基础模型发展方向 3.5.3.1 技术发展方向技术发展方向 未来图大模型的研究可在以下几个方面展开:1、跨学科融合:跨学科融合:结合自然语言处理、图论和机器学习等领域的优势,开发更全面的模型,促进知识的交叉融合,构建具有强大图推理能力的模型,创
89、建能够理解复杂图结构和语言指令的模型。2、丰富图数据集:丰富图数据集:构建大规模、多样化的图数据集,涵盖不同领域和应用场景,为模型训练提供坚实的数据基础。同时,建立标准化的评估基准,促进模型性能的客观比较。3、模型架构创新:模型架构创新:设计适合处理非欧几里得结构的高效神经网络架构,使模型适用于不同类型和结构的图数据,同时充分利用 LLM 的上下文理解能力。创新的模型架构将提高模型的性能和可扩展性,开发能够处理大型图的高效算法和架构。4、优化计算效率:优化计算效率:开发新的算法和技术,降低大规模图模型的计算和存储成本,提高模型的实际应用价值。这包括分布式计算和高效的数据处理方法。5、应用拓展:
90、应用拓展:将图大模型应用于社交网络分析、生物信息学、知识图谱等复杂领域,验证模型的实用性和有效性。真实世界的应用将推动模型的进一步改进。6、模型可解释性与安全性:模型可解释性与安全性:加强对图大模型的可解释性研究,确保模型决策的透明度。同时,关注数据隐私和模型安全问题,确保模型的可靠性和可信度。3.5.3.2 未来应用方向未来应用方向 与语言基础模型在文本翻译、生成等任务中取得的显著成就相比,图基础模型在图任务中的影响尚不确定。然而,在图神经网络已经展现出有效性的领域,如电子商务和金融,将图基础模Graph+AI:大模型浪潮下的图计算 21 型与大语言模型相结合,可能在开放性任务中进一步提升性
91、能。特别是在新兴领域,如药物研发方面,图基础模型展现出了巨大的潜力。在药物开发这一复杂且昂贵的过程中,语言模型已经在诸如靶点识别、副作用预测等任务中提供了重要的帮助。然而,由于蛋白质等生物分子具有复杂的三维结构,基于文本的数据并不足以充分表达其特性。图基础模型通过对图结构信息进行建模,可以更好地捕捉蛋白质分子的结构和相互作用,有望对药物发现过程带来革命性变化,极大加速新药研发进程。此外,在城市计算领域,传统的交通预测往往关注孤立的任务,而忽略了整个交通系统的综合性。通过将交通系统视为时空图,图基础模型能够为交通系统中各参与者的行为提供更全面的理解。借助图基础模型,研究者能够在分析不同交通节点、
92、路线、参与者行为的基础上,提出统一的解决方案,以应对各种城市计算中的挑战。例如,在复杂的交通网络中,不同的路段、信号灯、交通工具等都可以被视为节点和边,通过图基础模型的分析,可以优化整个系统的运作,从而提升交通管理的效率和预测准确性44。总的来说,虽然图基础模型在许多任务上的潜力尚需进一步验证,但在一些特定领域,尤其是结合语言模型时,图基础模型有望带来显著的性能提升,特别是在那些需要对结构化信息进行深入理解的任务中,例如药物开发和城市计算。3.4 知识图谱工程知识图谱工程 知识图谱利用三元组描述事物之间的复杂关系。从图的技术角度来看,大量三元组构成的知识图谱可以看作是一个有标签的有向图,图技术
93、如图神经网络、图表示学习等在知识图谱中有大量的应用。从人工智能的角度来看,知识图谱中包含图结构数据、文本数据、逻辑规则等,涉及多样的人工智能技术应用,是典型的图与人工智能融合的研究领域。本小节将从知识表示、知识抽取、知识补全、和知识服务四个方面对知识图谱工程展开介绍。3.4.1 知识表示知识表示 知识图谱作为符号化的知识表示体系,具备高阶语义、结构严谨、复杂推理等能力。在大语言模型(LLM)飞速发展的时代,知识图谱与 LLM 之间有丰富的互动关系,一方面 LLM 为低成本构建大规模知识图谱提供了有力工具;另一方面知识图谱的高质量、可解释的知识表示和推理能力,也为解决 LLM 的幻觉问题提供了新
94、的方向。传统知识语义框架,如 RDF、OWL 及 LPG 等在知识管理方面有显著不足,很难支撑 LLM 时代的知识图谱构建与应用。大模型时代的知识图谱,可以从 DIKW 层次范式出发,提供从数据(Data)、信息(Information)、知识(Knowledge)的完整表示能力,以实现信息完备性、知识精准性、逻辑严谨性的有机统一。Graph+AI:大模型浪潮下的图计算 22 3.4.1.1 知识分层知识分层 图 3.4 DIKW 知识分层 在 DIKW 知识分层中,从低到高依次是数据(Data)、信息(Information)、知识(Knowledge)、智慧(Wisdom)。数据(Data
95、)表示原始未处理过的数据,比如新闻、文章、事件、日志、数据等。信息(Informatioin)表示良好组织的结构化数据,比如关系数据库、表格、图表等。知识(Knowledge)是指从信息中总结出的规律、模式、关系,聚焦在知识在精准性与逻辑严密性。智慧(Wisdom)源自基于知识的推理决策,以及由此触发的行动规划。在 DIKW 金字塔结构中,越往下,上下文信息越完整,但是知识的精准性与逻辑性越差;对应的,越往上,知识的精准性与逻辑性越强,但上下文信息缺失越严重。3.4.1.2 知识分类知识分类 按主体类别粒度,知识可以划分为概念类型、实体类型、事件类型、标准类型、关系类型等。主体分类模型的简要解
96、释如下:实体实体:业务相关性比较强的客观对象,多属性、多关系刻画的多元复合结构类型,如用户、企业、商户等。考虑到对于 DIKW Data 层原始数据存储的诉求,Data 中的文件、文件中的段落应划分到实体类型的范畴。概念概念:实体从具体到一般的抽象,表述的是一组实体实例或事件实例的集合,是一种分类体系。相对静态,也是常识知识,具有较强复用性,如人群标签、事件分类、行政区划分类等。为简化企业应用,标准类型可划分到常识概念中。Graph+AI:大模型浪潮下的图计算 23 事件事件:加入时间、空间等约束的时空多元类型,如通过 NLP、CV 等抽取出来的行业事件、企业事件、诊疗事件或因购买、核销、注册
97、等行为产生的用户行为事件。属性属性:属性是实体、事件、概念等的组成要素,用以表述一个复杂结构的各个独立要素,每个属性要素又会关联为一个具体的简单或复杂结构,如基础类型、标准类型、概念类型等。关系关系:关系的定义和属性基本一致,表达同一个复杂对象与其他对象之间的关联,关系和属性的区别是,若关联对象为实体类型则为关系。3.4.1.3 逻辑规则逻辑规则 除实体、概念、事件、属性、关系外,业务专家基于特定业务场景总结的各种规则、模式、触发条件(如保险理赔规则、疾病诊断规则等),也属于知识的一种,逻辑规则可以采用三段式语法表示,例如其语法结构可以定义为:定义新的逻辑规则的语法结构,如下:逻辑规则语法结构
98、中,包含 Structure、Constraint、Action、Define 等模块。Structure 路径的基本单元是边,多种边组合起来的连通图成为路径,Structure 中可以描述多个路径,方便在不同场景下使用。路径描述按照 ISO GQL方式进行描述:Graph+AI:大模型浪潮下的图计算 24 Constraint Constraint 中支持单规则语法、规则组语法、聚合语法。单规则语法中,Constraint 中每一行作为一个规则,包括逻辑规则、计算规则、赋值规则等。规则组可以将逻辑规则进行组合,主要目的是将逻辑计算层次化,例如:聚合语法指的是对 groupby、sum、avg
99、 等聚合算子的支持。Action 通常 Action中支持多种操作:createNodeInstance/createEdgeInstance:用于因果的逻辑结果的语义表达 get:输出匹配的结果,包括实体、关系以及属性等内容。Graph+AI:大模型浪潮下的图计算 25 3.4.1.4 互索引结构互索引结构 图 3.5 文本和图结构互索引的知识表示150 图谱索引是一种基于图谱的文档脉络索引,包含Chunk段落、具体业务实体、通用概念知识三部分内容。这样一种图和文本混合的互索引结构,使得既可以在图上进行遍历,也可以检索文本块,并进行有效的分析。如上图左侧所示,通过图结构可以更有效地组织文档间
100、的关联。根据文档的篇章结构,段落间内在的逻辑关联,实现Chunk段落的语义分块。语义分块的结果兼具长度限制和语义约束,以适配大模型对窗口长度的限制,并实现同一分块内的内容高度内聚的要求。文档语义切分产出的分块,包含 id、摘要、正文等信息;id 由文档 id、篇章结构和顺序编码组成,文档中相邻的内容其 id 也是连续的。同时,文档与切分出的语义分块之间,也是互相关联的。业务实体、实体间关系抽取自 Chunk 段落,通过实体消歧、实体归一、实体融合、概念图挂载、语义构图等图谱技术栈,实现从歧义化、模糊化、碎片化的信息到明确化、标准化、网络化的知识的转变。实体中包含 knowledge、infor
101、mation 两部分信息。knowledge 指由业务专家预定义的,高频、常见的知识,对应的特征为强 schema 约束、结构化数据、属性和关系标准化;information 指由大模型开放抽取得到的动态知识,特征为弱 schema 约束、非结构化数据(文本和向量等)。实体类型包括预定义类型 EntityType 和 semanticType;EntityType 属于高层级的分类,包括Person、Organization、GeoLocaltion、Date、Creature、Works、Keyword 等;semanticType 属于低层级的分类,比如 Person 类别下的 bioch
102、emist,musician等。高层级的分类,目的是知识存储的便利化;低层级的分类,目的是业务应用的精准性。概念图作为领域专家知识内嵌到图谱系统中,基于实体的 semanticType、desc,通过概念挂载实现实例图与概念图的融合。Graph+AI:大模型浪潮下的图计算 26 3.4.2 知识抽取知识抽取 知识抽取是从非结构化或半结构化数据中识别、提取和组织有价值的信息和知识的过程。其目标是将各种形式的原始数据(如文本、图像、音频、视频)转化为结构化的数据,以便于计算机系统理解、分析和利用。知识抽取的方法经历了多个发展阶段:从早期依赖规则和模板的方法,到后来基于统计机器学习的技术,再到深度学
103、习方法的应用,最终发展到如今使用预训练模型的方法。3.4.2.1 知识抽取任务知识抽取任务 知识图谱的构建和维护涉及多个知识抽取任务,其中实体抽取、关系抽取和事件抽取是最核心和直接相关的任务。3.4.2.1.1 实体抽取实体抽取 实体抽取,也称为命名实体识别,用于识别数据源中的命名实体(包括人名、地名、组织名等),这些实体通常作为知识图谱中的节点,是知识图谱中最基本的元素。例如,“2010 年 9 月24 日,马青骅代表北京现代车队参加中国房车锦标赛,获得鄂尔多斯站冠军”中的信息可以通过其包含的时间实体“2010 年 9 月 24 日”,人员实体“马青骅”,参赛队伍实体“北京现代车队”,赛事类
104、型实体“中国房车锦标赛”,地点实体“鄂尔多斯”和荣誉类型实体“冠军”来直接表达。知识图谱的质量与实体抽取的完整性、准确率和召回率息息相关。早期的实体抽取方法包括依赖规则和模板的方法以及利用统计机器学习的方法。基于规则和模板的方法依赖于预定义的规则和模板,当所选用的规则能够很好地反映文本信息时,通常效果不错。例如,定义规则人名是两个连续的首字母大写的单词,然后将符合规则的文本字符抽取为实体;基于统计机器学习的方法的核心想法是从标注好的数据来中学习和推断规律,以进行实体抽取。近年来,随着深度学习方法在自然语言处理、计算机视觉等领域取得显著的突破,深度学习方法成为了实体抽取的主流方法。用于实体抽取任
105、务的深度学习模型涵盖了多种架构,包括卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、基于 Transformer 的预训练模型和图神经网络(Graph Neural Network,GNN)。CNN 通过一系列卷积和池化操作,能够有效地提取文本中的局部特征,随后通过全连接层进行实体识别和分类;RNN 逐个处理文本中的每个词,利用其循环结构保留并处理词与词之间的时间依赖信息,从而实现命名实体识别;GRU 利用门控机制
106、调节信息流动,能够捕获文本中长距离依赖关系,逐词处理文本以实现命名实体识别;基于 Transformer 的方法采用多头自注意力机制,可以并行处理序列中的所有词,并直接在编码器中获取上下文信息;GNN 将文本转化为图,通过迭代更新节点向量来聚合上下文信息2。Graph+AI:大模型浪潮下的图计算 27 3.4.2.1.2 关系抽取关系抽取 通过实体抽取获取的实体之间是离散且无关联的。关系抽取用于识别实体之间的关系并建立起实体之间的语义链接。这些关系通常作为知识图谱中的边。例如,在句子“ChatGPT 是由OpenAI 开发的一种大语言模型”中,关系抽取任务会识别出(OpenAI,开发,Chat
107、GPT),(ChatGPT,是,大语言模型)这样形式的三元组关系,从而构建知识图谱。早期关系抽取的方法包括基于传统规则和模板的方法和基于传统机器学习的方法。基于传统规则和模板的方法依赖于手写规则和模板,通过使用触发词和依存关系来匹配文本。基于传统机器学习的方法通过特征工程从文本中提取语法、词法等信息,构造特征向量,然后使用分类器来识别实体对之间的语义关系。近年来,深度学习方法成为了关系抽取的主流方法。关系抽取可以通过各种流行的神经网络架构来实现。CNN和RNN是较早用于关系抽取的深度学习方法,总体而言,CNN擅长捕捉句子中的局部特征,RNN 设计用于处理序列数据,使其比 CNN 更适合捕捉文本
108、中的长距离依赖关系。基于注意力机制的神经网络增强了关系表示与文本表示之间的相关性,突出了关系抽取的重要信息。注意力机制允许模型在预测关系时关注文本的相关部分,有效地克服了 CNN和 RNN在处理长距离依赖关系方面的局限性。它们可以捕捉复杂的句子结构和实体之间的关系,无论它们在文本中的位置如何。GNN 通过构建语义图来尝试捕捉输入序列的非线性结构,使关系抽取模型具有图上的关系推理能力。GNN 可以捕捉实体和关系的相互关联性,这对于纯粹的序列模型来说是困难的。预训练语言模型通过在大规模未标注文本数据上进行训练,学习到文本中所包含的语法和语义知识。随后,通过对预训练模型进行微调,可以直接用来进行关系
109、抽取等下游子任务138。3.4.2.1.3 事件抽取事件抽取 事件抽取旨在识别和抽取样本源中的事件及其相关信息,事件可以看作是知识图谱中的特定子图。事件抽取不仅涉及识别事件本身,还包括确定事件的触发词、分类事件类型、识别事件的论元以及确定论元在事件中的角色。在例句“特朗普于 2017 年 1 月 20 日在美国国会大厦宣誓就职”中,事件抽取任务具体为检测触发词“就职”,判断事件类型为“任职”,确定“特朗普”“2017 年 1 月 20 日”和“美国国会大厦”为事件论元,并确定它们对应的角色分别为“人物”“时间”和“地点”。事件抽取技术经历了从基于模式匹配方法到现代深度学习方法的演变。早期的方法
110、依赖于专家知识和预定义的模板,通过模式匹配来识别事件。随着数据和计算能力的提升,机器学习得到了发展。这些方法基于特征来构建分类器,从而进行事件类型和论元的分类。然而,这些传统方法在捕捉深层语义特征方面存在局限。深度学习的兴起显著提升了事件抽取的效果。RNN 用于建模序列信息以提取事件中的论元。JRNN135提出了一种基于双向 RNN 的联合事件抽取模型。该模型包括使用 RNN 总结上下文信息的编码阶段以及利用编码信息预测触发词和论元角色的预测阶段。JMEE136采用层次注意力机制来实现信息的全局聚合,JMEE 主要由四个模块组成,分别是词表示模块、句法图卷积网络模块、自注意力触发词分类模块和论
111、元分类模块,该模型利用基于注意力的图卷积网络进行联合建模图信息,以提取多个事件触发词和论元。GAIL137是一Graph+AI:大模型浪潮下的图计算 28 种使用生成对抗网络(Generative Adversarial Network,GAN)帮助模型关注难以检测的事件的模型。预训练语言模型的出现,为事件抽取带来了新的突破。在 BERT 模型出现之前,主流方法是从文本中识别出触发词,然后根据这些触发词来判断事件类型。随着 BERT 被引入到事件抽取模型中,基于全文识别事件类型的方法逐渐成为主流。这是因为 BERT 在上下文表示能力上表现出色,在文本分类任务中表现良好,尤其是在数据量较少的情况
112、下134。3.4.2.1.4 其他抽取任务其他抽取任务 属性抽取用于识别实体或者关系的属性及其值,这些属性丰富了知识图谱中实体和关系的描述。属性可以看作属性值和实体或者关系之间的一种关系,因而可以通过关系抽取的思路来解决。三元组抽取可以视为一种综合性的知识抽取任务,它包含了实体抽取、关系抽取和属性抽取的内容。具体来说,三元组抽取的目标是从源样本中抽取形如(subject,predicate,object)三元组,这些三元组可以同时包含实体、关系和属性信息,这些三元组可以直接用于构建知识图谱。另外,知识抽取还包括观点抽取、关键词抽取、主题抽取和情感抽取等,这些虽然不是直接用于构建知识图谱的核心元
113、素,但它们可以丰富和增强知识图谱的内容和功能。通过结合这些抽取任务,可以构建一个更加全面和智能的知识图谱。3.4.2.2 知识抽取流程知识抽取流程 3.4.2.2.1 本体建模本体建模 无论是开放域的知识图谱还是包括专业领域的各行业的知识图谱,都需要收集大量的数据,这些数据的收集是有选择性的,这个选择的依据就是本体模型,也称 Schema 设计或本体设计。本体建模解决知识图谱如何组织数据的问题,是数据的底层架构,是一个知识体系框架,能够涵盖住知识图谱所有的数据,决定了数据收集的范围。本体模型作为知识表达模型,定义了实体类型、实体对应的属性、以及实体和实体之间的关系,通常应根据实际应用需求和数据
114、情况以及业务知识来综合设计。下图为一个装备维保知识图谱的本体模型示例。Graph+AI:大模型浪潮下的图计算 29 图 3.6 装备维保知识图谱的本体模型示例 3.4.2.2.2 知识抽取知识抽取 知识抽取是针对结构化数据、非结构化数据,利用大数据、深度学习、机器学习、自然语言处理等技术,将数据转化为 RDF 三元组数据,并统一存储的过程。基本流程如下图所示。图 3.7 三元组抽取流程 1 1)结构化数据抽取)结构化数据抽取 用于构建知识图谱的原始数据可能是结构化数据或者非结构化数据。结构化数据通常存储于关系型数据库或 excel 二维表中,有明确的字段定义,数据格式非常规范,通过字段与知识图
115、谱实体、属性、关系的映射,即可自动进行三元组的抽取。Graph+AI:大模型浪潮下的图计算 30 原始数据大多存储在像 MySQL 这样的关系数据库中,并以不同的表格形式区分,而用于构建知识图谱的数据通常以三元组格式存储,因此需要进行这种转换。D2RQ1是一个用于将关系数据库内容转换为 RDF 三元组的工具。D2RQ 主要包括 D2R Server、D2RQ Engine 和 D2RQ Mapping 语言。图 3.8 基于 D2RQ的结构化数据知识抽取框架134 2 2)非结构化数据抽取)非结构化数据抽取 非结构化数据多为篇章级的 PDF、Word 数据,不同种类文档的结构具有一定的规律,根
116、据行文方式规范程度,采用相关抽取工具,通过“规则+机器学习”相结合的方式进行知识抽取,主要分为下面几个步骤:1.1.数据获取数据获取:通过知识图谱自动化构建平台,与存储的文档的数据库进行连接,从而获取文档,同时也可在平台上上传当前的 PDF 和 Word 文档。2.2.智能分段智能分段:首先将篇章级的文档进行分段,可根据分段标识来进行分段处理。3.3.智能分句智能分句:主要是对分段后的文档进行分句,采用中文依存句法分析工具,分析句子中词与词之间的依存关系(如主谓关系指主语与谓语间的关系),并根据依存关系以及标点符号进行自动切分。切分后,还要再判断句子中是否存在并列关系或连谓结构,这样的句子一般
117、是在同一事项当中,所以再对相应句子进行合并。1 http:/d2rq.org Graph+AI:大模型浪潮下的图计算 31 4.4.中文分词中文分词:应用中文分词工具进行分词,一方面可以实现中文分词(包括停用词),另一方面可以对词进行词性和语义标注。在实践中有时会将句子中的词分的十分细碎,可以再进行词与词之间的结合,如紧邻的名词,名词间存在代词的情况。这样可以更准确的提取主语。5.5.知识抽取知识抽取:最后知识图谱三元组构建,可以采用相关构建工具进行知识抽取。例如应用北京大学 gBuilder2工具,首先通过整体抽取流程的流水线构建,然后再进行实体抽取、关系抽取和三元组构建,从而将数据转化为知
118、识。gBuilder 中内置了众多非结构化抽取算法和模型,可通过构建非结构化数据抽取流水线来进行数据的抽取,将数据转化为知识。图 3.9 gBuilder非结构化数据知识抽取流水线设计 在上述过程中,最重要的也是最难的是实体和关系的抽取。在非结构化数据抽取过程中,传统的方法如 Bert 等模型,需要较多的语料标注,才能够达到可接受的抽取效果。大语言模型(Large Language Model,LLM)兴起之后,因其强大的一般知识、文本理解、泛化能力,可实现小样本的非结构化文本数据的知识抽取,通常标注少量的数据,就可以在实体、关系、属性抽取的准确率方面得到显著提升。3.4.3 知识补全知识补全
119、 知识图谱(Knowledge Graph,KG)作为一种重要的数据组织形式,以图形化的方式展示实体及其关系,广泛应用于搜索引擎优化、推荐系统、智能问答等领域。它在这些应用中发挥了关键作 2 https:/.Graph+AI:大模型浪潮下的图计算 32 用,但实际应用中的知识图谱常常存在信息不完整的问题。这些缺失的信息可能影响系统的智能化水平和用户体验。知识图谱补全(Knowledge Graph Completion,KGC)技术旨在通过推测和填补这些缺失的知识,从而提升知识图谱的全面性和准确性。这项技术不仅增强了知识图谱的实用性,还提升了信息检索和智能决策的能力,使其能够更好地服务于实际应
120、用。KGC 技术通过技术手段预测和填补知识图谱中缺失的信息,包括未记录的实体、关系和属性,提高其整体质量和应用效果。3.4.3.1 主要任务主要任务 在知识图谱补全中,三元组预测、链接预测和关系预测是三大核心任务,每一个任务都在知识图谱的构建与优化中起着至关重要的作用。随着技术的不断进步,尤其是人工智能技术的发展,这些任务在处理大规模数据和复杂关系时表现出显著的优势。3.4.3.1.1 三元组预测三元组预测 三元组预测的核心任务是识别并填补知识图谱中缺失的“实体-关系-实体”三元组。一个典型的三元组由头实体、关系和尾实体构成。例如,在缺少“苹果公司-总部位于-库比蒂诺”的场景下,三元组预测技术
121、通过分析现有数据,推测并补全该缺失三元组,从而完善知识图谱。早期的三元组预测依赖逻辑规则和路径搜索技术,通过规则推理和沿已知关系进行路径扩展,推测出缺失的三元组信息。然而,随着知识图谱规模扩大,关系复杂性增加,传统方法在泛化能力和灵活性方面逐渐暴露出局限性,难以应对复杂的知识场景。为应对这些挑战,基于嵌入(embedding)的模型应运而生,并逐渐成为主流方法。TransE、DistMult 等嵌入模型通过将实体与关系映射到低维向量空间,捕捉它们之间的潜在联系,从而高效地进行三元组预测。这种向量化处理方式有效简化了知识图谱的复杂结构。近年来,图神经网络(Graph Neural Network
122、s,GNN)的发展推动了三元组预测技术的突破。GNN 通过迭代聚合节点及其邻居的信息,能够更精细地捕捉知识图谱的复杂结构。与传统嵌入方法相比,GNN 在处理异构数据和上下文信息时具有明显优势。代表性模型如 R-GCN(Relational Graph Convolutional Network)和 CompGCN(Composition-based Graph Convolutional Network)已经在大规模知识图谱补全任务中展现了卓越的性能。3.4.3.1.2 链接预测链接预测 链接预测的任务是预测两个已知实体之间可能存在的关系,着重于发现实体间的潜在联系,而非具体的三元组。例如,针
123、对知识图谱中“乔布斯”与“苹果公司”之间的缺失关系,链接预测技术将尝试推测两者间可能的联系,如“创始人”。Graph+AI:大模型浪潮下的图计算 33 最初,链接预测主要依赖共现统计和矩阵分解方法,通过计算实体间的相似度或利用结构属性,推测潜在的关系。然而,随着知识图谱复杂性的增加,传统方法在应对远距离关系和复杂结构时显得力不从心。随着技术的进步,基于图嵌入的技术,如 LINE、DeepWalk 等方法,逐渐成为链接预测的核心工具。这些方法通过将实体映射为低维向量,捕捉图结构中的潜在关系。然而,面对日益复杂的图结构,嵌入方法的表达能力仍有局限。深度学习技术的发展为链接预测任务提供了新的动力。图
124、卷积网络(Graph Convolutional Networks,GCN)等神经网络模型能够直接在图结构上操作,利用自适应特征学习,显著提升了关系预测的准确性。此外,对比学习(Contrastive Learning)等方法也逐渐在链接预测中崭露头角,通过引入负样本生成机制,进一步增强模型在复杂知识图谱中的泛化和区分能力。这类方法在处理大规模图谱时表现出极高的鲁棒性和精度。3.4.3.1.3 关系预测关系预测 关系预测任务旨在明确两个实体之间的具体关系类型,而不仅仅是预测它们之间是否存在关系。例如,对于“比尔盖茨”和“微软”两个实体,关系预测的目标是判断两者之间的具体关系,如“创始人”或“首
125、席执行官”。这一任务要求不仅能识别实体间的联系,还要对关系的性质进行准确分类。关系预测任务的早期方法主要依赖手工定义的规则和基于路径的推理技术。这类方法通过分析实体间的路径信息或共现模式,推测它们之间的潜在关系类型。然而,随着知识图谱规模的扩展和关系多样性增加,规则驱动的方法在处理复杂关系类型及未见数据时逐渐显现出其局限性。近年来,深度学习技术,尤其是基于注意力机制(Attention Mechanism)的模型,在关系预测任务中表现出强大的潜力。Attention 机制能够根据上下文信息对不同邻居节点和关系赋予不同的权重,从而实现更精确的关系分类。同时,随着语言模型的发展,BERT 等预训练
126、语言模型被引入到关系预测任务中,进一步提升了模型在文本和结构化数据之间的推理能力。通过将关系预测任务转化为序列预测问题,这些 AI 模型能够从大规模文本数据和知识图谱中提取更多隐含关系,实现更为精准的关系识别与分类。3.4.3.2 关键技术与流程关键技术与流程 在知识图谱补全的过程中,涉及多个关键技术和步骤。以下内容将分为四个主要部分:数据预处理、模型学习、候选处理和事实识别。3.4.3.2.1 数据预处理数据预处理 数据预处理是知识图谱补全的基础。此阶段主要包括以下两个关键任务:Graph+AI:大模型浪潮下的图计算 34 实体对齐与融合实体对齐与融合:在处理不同数据源时,必须将相同的实体统
127、一表示,避免信息重复。不同数据源可能使用不同的表示方式,如不同的命名或标识符。通过实体对齐与融合技术,可以确保这些不同的表示都指向同一个实体,从而避免冗余和冲突。例如,对于“Facebook”这个实体,不同的数据源可能使用“FB”或“Meta”来表示,通过对齐与融合,将这些不同名称统一为一个实体。知识去重与合并知识去重与合并:此步骤的目的是清除重复记录并整合相似的信息,以形成一个更为完整的知识记录。不同数据源可能包含关于同一实体的多条记录,通过去重和合并,可以将这些信息整合为一个完整、准确的知识条目。例如,将多个来源中关于“Google”的信息整合,去除重复条目,从而生成一个全面的知识记录。3
128、.4.3.2.2 模型学习模型学习 模型学习阶段在知识图谱补全过程中至关重要,主要包括以下几个步骤:数据准备数据准备:数据准备是模型训练的基础,涉及收集和整理用于训练和验证的数据集。这些数据集包括已知的实体、关系和三元组,同时也包括负样本(即不存在的三元组)。数据的质量直接影响到模型的训练效果和最终性能,因此确保数据的准确性和全面性是关键。通过系统化的数据整理,可以确保模型训练和验证过程中的数据代表性和多样性,进而提升模型的泛化能力。模型训练模型训练:在模型训练阶段,选择合适的模型是核心任务。常见的模型包括图神经网络(GNN)、逻辑回归等。这些模型通过处理训练数据,旨在预测知识图谱中缺失的三元
129、组。训练过程中,需要不断优化模型参数,以提高其预测的准确性和可靠性。通过反复训练和调整,可以使模型逐渐学会识别潜在的缺失知识,并在面对新数据时做出准确的预测。模型评估模型评估:模型评估是确保模型性能的关键步骤。在这一阶段,通过使用验证数据集对模型进行评估,主要的评估指标包括准确率、召回率和 F1 分数等。这些指标能够全面衡量模型在预测缺失三元组时的表现。根据评估结果,对模型参数进行调整,以优化模型的预测能力。有效的评估和调优过程能够显著提高模型的预测准确性,从而提升知识图谱的整体质量。3.4.3.2.3 候选处理候选处理 候选处理阶段主要包括以下步骤,以提升预测准确性和效率:候选集生成:候选集
130、生成:这一阶段的任务是生成可能的三元组候选集。这涉及创建所有可能的三元组,其中一些可能是正确的,但尚未在知识图谱中记录。这些候选集为后续的筛选和验证提供了基础,并且可以通过算法生成潜在的三元组组合,为知识图谱补全提供广泛的可能性。候选过滤:候选过滤:在候选集生成之后,需要通过设置过滤规则和应用算法来筛选出最有可能的候选三元组。这一步骤的目的是提高模型预测的准确性。通过规则和算法,可以排除那些不太可能的Graph+AI:大模型浪潮下的图计算 35 候选三元组,从而确保最终选择的三元组具有较高的准确性和有效性。有效的候选过滤可以减少不必要的计算量,并提升知识图谱的补全效率。3.4.3.2.3 事实
131、识别事实识别 事实识别阶段是知识图谱补全的最后步骤,涉及将训练好的模型应用于候选集,识别和确认缺失的三元组。在这一阶段,被确认的三元组将被添加到知识图谱中,从而提升知识图谱的完整性和准确性。事实识别的目标是通过准确的模型应用,补全潜在的缺失信息,使知识图谱更加全面和可信。这一过程不仅增强了知识图谱的实用性,还为下游应用提供了可靠的数据支持。3.4.4 知识服务知识服务 知识图谱构建完毕后,存储了当前应用中重要的概念、实体、属性、和关系等,这些存储了丰富信息的知识图谱可以服务于很多应用,例如在电商应用中构建了商品知识图谱后,商品知识图谱服务于电商应用中的很多任务,包括货场选品、商品分类、同款商品
132、对齐、商品推荐、以及序列推荐等。知识服务的任务包括知识查询问答、复杂逻辑查询、检索增强问答等,知识服务方式涉及数据的存储与查询、知识图谱模糊查询检索、知识图谱预训练等。本小节将从知识服务任务和知识服务方式两个角度,对融合了主流图学习和人工智能方法的知识图谱服务展开介绍,将首先介绍知识服务涉及的一些典型任务和方法,然后介绍典型的知识服务流程。3.4.4.1 知识服务任务知识服务任务 3.4.4.1.1 知识查询问答知识查询问答 知识图谱查询问答是指基于自然语言问答的方式完成知识图谱中的知识查询。例如针对一个电商知识图谱问询“在平台上售卖的去年下半年上市的国产手机型号有哪些?”,为了回答这个问题,
133、需要根据问题的语义,在知识图谱中找出对应的数据。根据查询问答问题的复杂程度,可以将查询问答分为简单查询问答和复杂查询问答。知识图谱查询方法包括基于语义匹配的方法和基于检索的方法。基于语义匹配的方法首先将查询问答问题,经过语义匹配转化为逻辑表达式,如 S-表达式,SPARQL 查询语句等。语义匹配的方法又可分为逐步生成方法和序列到序列的方法,逐步生成法将自然语言到逻辑表达式的翻译过程定义为一系列的步骤,例如首先找到问题的核心实体,然后找到以核心实体为起点,以问题答案为终点的路径,再在路径的节点上添加属性约束等。序列到序列的方法将自然语言到逻辑查询语句的映射过程看作一个语言翻译的过程,并根据标注数
134、据训练一个翻译模型例如基于 T5 的模型,实现以自然语言问句为输入,直接生成问句对应的逻辑表达式。逻辑表达式可以被翻译为可进行知识图谱查询的 SPARQL 查询语言,并基于 SPARQL 查询语句得到问题对应的查询结果。Graph+AI:大模型浪潮下的图计算 36 基于检索的方法首先基于问题在知识图谱中检索相关的子图,然后根据子图中包含的信息进行问题回答。因此基于检索的方法通常包含一个检索器和一个推理器,检索器实现的功能是根据当前的问题从知识图谱中检索和当前问题相关的包含答案的子图,推理器实现的功能是根据检索的子图信息推理出问题对应的答案,例如可以采用问题感知的(类)图神经网络模型对子图进行编
135、码,并根据实体的表示计算当前实体作为问题答案的概率。3.4.4.1.2 复杂逻辑查询复杂逻辑查询 知识图谱复杂逻辑查询是指对知识图谱进行包含复杂逻辑组合的查询,这个任务的复杂性体现在两个方面,一方面是复杂逻辑查询任务通常包括逻辑或、且、非组合以及其他逻辑约束例如存在量词、全称量词等。例如针对一个人物知识图谱,查询有小于 1 个小孩或者有多余 3 个小孩且有一个是女孩的人居住的城市有哪些。另一方面是复杂逻辑查询任务中通常会包含一些无法查询到正确结果的查询步骤,这个是受到知识图谱本身不全的影响。复杂逻辑查询问答可以分类两类方法,一类是查询嵌入方法,这类方法采用各种表示学习方法,将逻辑查询语句编码到
136、既定的向量空间中,最后计算查询嵌入表示和答案表示的匹配度得到查询的结果,查询嵌入方法可以通过向量计算推理出缺失的事实的概率,并将高概率的事实考虑进查询过程中。另一类方法是,基于大语言模型的方法,这类方法通过利用大语言模型中的参数化知识弥补知识图谱不全的问题,利用大语言模型通用的逻辑推理能力对查询进行拆解,以应对复杂逻辑查询的复杂性。3.4.4.1.3 检索增强问答检索增强问答 检索增强问答是指利用知识图谱作为外部知识源,辅助基于自然语言的问答。例如利用WikiData、OneGraph3的数据辅助进行一些知识问答、常识问答等。以知识图谱为外部知识源的检索方法通常依赖一个检索器,这个检索器的功能
137、是根据当前的问从知识图谱中检索有助于回答当前问题的知识。检索器的方法有几种,一种是将知识图谱中的三元组进行序列化,通过检索器的文本编码器将每个三元组序列编码为一个向量,同时用检索器的文本编码器将问句编码为一个向量,通过向量计算得到和当前问题最相似的三元组作为外部检索的知识,将这些三元组经过线性化之后和问题拼接起来输入语言模型中生成答案。另一种方法是从问题中识别出命名实体,将命名实体和知识图谱中的实体进行对齐,以对齐的实体为起点,从知识图谱中检索这些实体的 k 跳子图,将 k 跳子图序列化之后和问题一起输入语言模型中生成答案。3 http:/ 37 除了以上的单步检索方法,还可以使用多步检索的方
138、法对检索结果进行优化,使回答问题的过程和外部知识图谱反复迭代地进行交互,充分利用知识图谱中的信息辅助问答。3.4.4.2 知识服务方式知识服务方式 3.4.4.2.1 数据存储与查询数据存储与查询 构建好的知识图谱,尤其是大规模的知识图谱,通常会被存储于图数据库中,典型的图数据库有 Neo4j、TuGraph、gStore 等,这些图数据库通常支持包含亿级的节点和关系的知识图谱的存储,并提供对应的可视化查询界面和命令行查询工具,且均开源了社区版本,以便相关人员使用。这些图数据库通常采用图查询语言进行数据查询,典型的图查询语言有 Cypher、Gremlin、SPARQL、GQL 等,其中 Cy
139、pher 是一种申明式查询语言,语法类似 SQL,主要用于 Neo4j 图数据库;Gremlin 适用于 Apache TinkerPop 框架的图数据库,是一种基于遍历的图查询语言,其查询语句可以被看作是图上的遍历过程;SPARQL 是一种查询 RDF 格式的图数据的查询语言,可应用于Apache Jena 以及 Virtuoso 等;GQL 是 ISO(国际标准化组织)最新发布的图数据库查询语言,旨在为图数据的存储、管理和查询提供一个统一的标准,GQL 的设计不仅考虑了现有图数据库系统的特性,还借鉴了 SQL 等成熟查询语言的优点,以支持复杂的图模式匹配和路径查找等功能。这些图数据库为检索
140、知识图谱中的信息提供了丰富的功能,可以完成实体 k 跳子图检索、实体的在特定关系下连接的实体的检索、满足特定属性的实体检索、以及蕴含了或、且、非等操作的复杂逻辑组合检索等,为直接的知识图谱的数据使用提供了便利的方式。3.4.4.2.2 知识图谱模糊检索知识图谱模糊检索 基于图数据库的知识查询方式适用于知道图数据库中存储的实体或关系的 id 或名称的情况下的查询,但在部分应用中,例如基于自然语言的问答中,需要将问题中的实体或关系名称映射到知识图谱中的实体或关系上,这个过程可以被称为基于文本的模糊检索,该问题可以抽象为给定一个实体(关系)名称,从知识图谱中找到与其语义最匹配的实体(关系)。模糊检索
141、方法可以分为两种,一种是基于词袋的模糊检索方法,一种是基于向量的模糊检索方法。基于词袋的模糊检索方法,通过计算两个文本段之间的相似度。典型的方法有 BM25,这是一个广泛应用于信息检索和文档排名的词袋模型算法。BM25 在计算文本相似度的过程中充分考虑了词频、逆文档频率、文本长度、文本平均长度等因素。基于向量的模糊检索方法,将要计算相似度的两段文本进行向量化,通过计算向量相似度模拟文本的相似度。典型的文本向量编码检索方法有 SentenceBERT、DPR、ColBERT、SimCSE 等。模糊检索方法为应用数据映射致知识图谱数据提供了可行的兜底的方法,使得任意的应用任务都可以充分利用知识图谱
142、中的数据。Graph+AI:大模型浪潮下的图计算 38 3.4.4.2.3 知识图谱预训练知识图谱预训练 基于图数据库的知识图谱存储与查询方法,为使用者提供了忠实于原始数据的知识图谱数据获取方式,但众所周知,知识图谱的数据往往存在不完整的特性,有一部分被蕴含但未被显式表示和存储的数据,这部分缺失的数据可能会导致知识图谱数据服务提供的数据不全面不准确。因此在数据存储和查询服务基础上,知识图谱预训练服务被提出。知识图谱预训练即对大规模的知识图谱进行预训练,通过设计表示学习模型将知识图谱映射致特定的向量空间中,这样知识图谱中的每个实体和关系将获得向量空间的表示,并可以通过这些向量之间的计算获得三元组
143、的真值,包括缺失的三元组的真值。除了提供三元组真值计算方法,知识图谱预训练方法还可以为下游任务提供向量服务,例如提供实体的向量表示,提供某个实体在某个关系下的尾实体的向量表示,提供实体是否具有某种关系的表示等,这些表示向量可以直接当作特征向量输入下游任务的模型中,以向量服务而非数据服务的方式将知识图谱中的知识被下游任务模型所利用,提升下游任务的效果,典型的知识图谱预训练方式有 PKGM139等。知识图谱预训练使得知识图谱可以为下游任务提供超越于被存储的知识的服务,将知识图谱推理能力也提供给下游任务,使得下游任务可以受益于关系推理、类别推理、规则挖掘等知识推理能力。3.4.5 总结与展望总结与展
144、望 图技术和人工智能技术的发展,尤其是大语言模型在语言理解方面的突破,为知识图谱的表示、抽取、补全和服务带来的技术的变革。首先,知识表示向着能表示更深度的语义和更广泛的语义发展;其次,知识抽取的泛化性得到进一步提升,知识抽取成本可以进一步降低,使得低成本快速构建大规模知识图谱成为可能;再者,知识补全从依赖图结构的补全向着混合依赖图结构和文本的方向发展,可以更加充分地利用知识图谱中图结构和语义信息;最后,知识图谱服务的方式多样性逐渐增加,除了检索查询这类传统服务方式,还发展出了辅助大模型思维链等方式。总的来说,以大模型为核心的人工智能技术发展,为知识图谱的构建、维护和应用带来了新的技术范式和应用
145、场景,会进一步促进知识图谱技术的应用和发展。3.5 图应用图应用 3.5.1 自然语言转图查询自然语言转图查询 现代关系型数据库使用 SQL(Structured Query Language)作为查询语言,由于 SQL 语言本身复杂的特性,只有少数研发工程师和数据分析师能够熟练使用数据库。于是开发者尝试借助大模型微调(Fine Tuning)等技术将自然语言自动翻译为 SQL 语句,即 Text2SQL,来降低数据库的使用门槛。Text2SQL 这一研究领域在科研工作者不断的探索之下,已然发展十分成熟,拥有数量、Graph+AI:大模型浪潮下的图计算 39 种类均十分丰富的语料数据集,以及对
146、应的评测数据,在大模型微调这一方面,也发展出了多种技术,例如 DAIL-SQL+GPT-4+Self-Consistency方案已经在 Spider 测试集上达到了 86.6%的准确率。同样的,在图数据库领域也存在相似的使用门槛过高的问题,甚至更为严峻。相比于 SQL 相对成熟的语法标准(SQL2023),图查询语言标准(ISO/GQL)尚未全面普及,目前是多种查询语法并存的状态(GQL、PGQ、Cypher、Gremlin、GSQL 等),因此更需要借助大语言模型的自然语言理解能力,降低图数据库查询语言的使用门槛,即 Text2GQL。然而,Text2GQL 这一研究方向由于发展较晚,目前仍
147、面临着几方面的困难。首先,Text2GQL 领域并没有如同 Text2SQL 领域那样的海量数据集可供使用,甚至鲜有公开的 Text2GQL 数据集。其次,Text2GQL 领域并没有一个如同Spider数据集的评测标准一样工人的评测标准以及对应的评测数据。最后,由于以上数据集和评测标准的欠缺,各种大模型微调方法的效果也很难在 Text2GQL领域得到验证。为了提升用户通过自然语言与图数据库交互的体验,无需掌握复杂的 GQL 语法,需优化自然语言到 GQL 的转换准确性和效率。首先,利用词法分析和语义理解等语义分析技术,提取关键信息并构建语义模型。其次,结合用户的历史查询和会话背景进行上下文理
148、解,以消除歧义。接着,应用机器学习算法训练自然语言与 GQL的映射关系,不断优化模型参数。在生成 GQL语句时,依据图数据库的特点实施查询优化。此外,通过收集用户反馈,评估并改进转换结果,从而持续提升用户满意度。3.5.1.1 语料生成语料生成 众所周知,要实现模型微调,构建语料是第一步,也是最关键的一步,语料的质量和丰富度会直接决定微调模型的预测效果。但是前面提到,由于图查询语言标准的不够成熟,想要获取现有的 GQL 语料是一件很困难的事情,并且实际业务语料的丰富度更低。SQL+GQL 语法作为一项创新技术,有了“语法制导的语料生成策略”。图 3.10 语法制导的语料生成策略 Graph+A
149、I:大模型浪潮下的图计算 40 该策略的具体思想如下:GQL 抽象语法树(AST)展开后的基本形式就是表达式(Expr),常量(Literal)也是一种特殊的表达式。通过设计表达式实例生成器,批量生成并组合出大量的 AST实例,得到 GQL语句样本。特定的 AST 可以通过通用生成器产生对应的提示词模板,提示词模板随着 AST 实例化形成提示词文本。特殊的不适合通过生成器生成的提示词模板可以通过人工构造。初步生成的提示词文本可以借助 LLM 进一步泛化和翻译,生成多样的自然语言提示词文本。通过该方案,能够将初始语料进行数量级的扩充,以满足后续训练的需要。具体执行流程如下:图 3.11 GQL语
150、料生成核心流程 3.5.1.2 模型微调模型微调 大模型中常用的微调方法同样适用于 Text2GQL 任务,如 LoRA 与 QLoRA。3.5.1.2.1 LoRA 方法方法 Transformer 的 attention 网络结构中的参数通常是冗余的,它们可以精简到一个低维中完成各种 NLP 任务。低秩分解便是一种将高维稠密参数向量降维分解为稀疏的低维向量的方法。Graph+AI:大模型浪潮下的图计算 41 LoRA52的基本原理是在冻结原模型参数的情况下,通过向模型中加入额外的网络层,并只训练这些新增的网络层参数。由于这些新增参数数量较少,这样不仅微调的成本显著下降,还能获得和全模型微调
151、类似的效果,如下图所示:Pretrained Weights 部分为预训练好的模型参数,LoRA 在预训练好的模型结构旁边加入了A和 B 两个结构,这两个结构的参数分别初始化为高斯分布和 0。A的输入维度和 B的输出维度分别与原始模型的输入输出维度相同,而 A的输出维度和 B的输入维度是一个远小于原始模型输入输出维度的值,这就是 low-rank的体现,可以极大地减少待训练的参数。在训练时只更新 A、B 的参数,预训练好的模型参数是固定不变的。在推断时利用重参数思想,将AB与W合并,这样在推断时不会引入额外的计算。而且对于不同的下游任务,只需要在预训练模型基础上重新训练 AB,这样也能加快大模
152、型的训练节奏。图 3.12 LoRA 算法 LoRA 的优势很明显:预训练模型参数可以共享并保持冻结,因此模型不容易发生灾难性遗忘。秩分解矩阵的参数明显少于原始模型,根据不同的任务可以构建不同的小型 LoRA 模块,移植性很强。我们可以通过替换矩阵 A 和 B 来冻结共享模型并有效地切换任务,从而显著降低存储需求和任务切换开销。当使用 adapter时,因为我们不需要计算梯度或维护大多数参数的优化器状态,LoRA使显存开销下降。Graph+AI:大模型浪潮下的图计算 42 LoRA 简单的线性设计允许我们在输出时将可训练矩阵与冻结权重合并即可,通过构造与完全微调的模型相比,LoRA 不会引入推
153、理延迟。LoRA 与许多先前的方法正交,并且可以与其中的许多方法组合,例如 p-tuning。LoRA 的也有一些缺点:LORA 进行低秩分解时候可能会损失一些模型的表达能力和泛化能力。LORA 微调方法可能会受到初始化和超参数的影响较大,需要进行适当的调整。3.5.1.2.2 QLoRA 方法方法 QLoRA 方法53使用一种低精度的存储数据类型(NF4)来压缩预训练的语言模型。通过冻结 LM 参数,将相对少量的可训练参数以 Low-Rank Adapters 的形式添加到模型中,LoRA 层是在训练期间更新的唯一参数,使得模型体量大幅压缩同时推理效果几乎没有受到影响。从 QLoRA 的名字
154、可以看出,QLoRA 实际上是 Quantize+LoRA 技术。图 3.13 QLoRA 算法53 QLoRA 的 量 化 核 心 技 术 有 三 个:4-bit NormalFloat(NF4)量 化、二 次 量 化(Double Quantization)和 Paged Optimizers。NF4 量化:这种数据类型基于分位数量化技术,并在信息理论上是最优的。由于预训练的神经网络权值通常具有标准差为 0 的正态分布性质,因此我们可以通过缩放系数将所有的权值转换为固定期望值,从而使该分布完全适合我们的数据类型范围。一旦数据类型范围和权重范围匹配,我们就可以像往常一样进行量化。分位数量化技
155、术的主要思想便是将数值尽量落到均值为 0,标准差为-1,1的正态分布的固定期望值上。前面我们知道离群值对于模型量化的影响极其重要,而由于分位数估计算法的近似性质,精度量化对于离群值又有很大的误差。分位数量化技术使得每个量化分区中具有相等的期望值,相等的期望值可以避免昂贵的分位数估计和近似误差,使得精确的分位数估计在计算上可行。Graph+AI:大模型浪潮下的图计算 43 二次量化:是将额外的量化常数进行二次量化以减小内存开销的过程。例如每 64 个参数块共享一个 32bit 的量化常数,这样的话相当于每一个参数的量化额外开销为 0.5 bit。这个总体来说也是比较大的一个开销,所以为了进一步优
156、化这个量化开销,我们对其进行二次量化,即把第一次 32bit 量化的输出作为第二次量化的输入,我们采用 256 的块大小对量化常数进行 FP8 量化,这样的话,我们可以把每个参数的量化开销每个参数减少了0.373bit。Paged Optimizers:使用 NVIDIA 统一内存功能,该功能在 CPU和 GPU之间进行自动 page对 page 传输,以便在 GPU 偶尔 OOM的情况仍然下进行模型训练和微调。可以理解成显存偶发 OOM 时,QLoRA 会将优化器状态自动的驱逐到 CPU RAM,当在优化器更新步骤中需要内存时,它们会被分页回 GPU内存,从而保证训练正常训练下去。3.5.1
157、.3 效果验证效果验证 Text2SQL 领域目前比较公认的评价模型预测准确率的方式是执行结果正确性评测,即预测的SQL 语句只要执行返回结果与标准答案一致,即使预测的 SQL 语句与标准答案的 SQL 语句不完全一致,也认为是正确的。在 Text2SQL 领域,SQL 已经成为了一个通用的标准,测试所使用的数据库和数据可以通过 SQLite 以一种低成本的方式集成在测试系统中。然而在 Text2GQL 领域,由于不同的图数据库使用着不同的图查询语言,数据导入格式也不同,执行结果正确性评测需要针对每一种数据库启动数据库的服务并导入对应的测试数据,开发成本较高。因此针对不同程度的开发成本设计了如
158、下四个级别的评测方式:文本相似度评测(零开发成本):使用 Jaro-Winkler Distance 等文本相似度算法计算预测的 GQL语句与标准 GQL语句的差异,不需要启动数据库服务 语法正确性评测(需要语法解析器):使用.g4 语法文件生成的语法解析器,或者将JAVA 项目中的语法解析器打包调用,判断预测 GQL 语句的语法正确性,可以与文本相似度评测配合使用 执行计划正确性评测(需要数据库服务,无需实际数据):在不生成实际测试数据的情况下,将数据库解析 GQL 语句后得到的执行计划与标准答案的执行计划进行对比,借此预测执行结果是否一致 执行结果正确性评测(需要数据库服务与数据导入):需
159、要启动数据库并导入与 GQL 语句对应的测试数据,直接对比执行结果,这一方法得到的准确率最具有参考意义,但是开发成本最高。TuGraph 团队提供的 GQL(tugraph-analytics)语料以及 Cypher(tugraph-db)语料在CodeLlama-7b-instruct 模型上微调后,文本相似度及语法正确性准确率达到 92%以上。Graph+AI:大模型浪潮下的图计算 44 表 3.1 Text2GQL微调模型性能 3.5.2 图系统优化图系统优化 在当今数字化时代,数据量呈现爆炸式增长,数据之间的关联变得日益复杂。图系统作为一种能够有效处理和分析图数据的工具,正逐渐在各个领
160、域发挥重要作用。与此同时,人工智能技术的飞速发展,特别是机器学习和深度学习算法的进步,以及大语言模型在自然语言处理领域的显著进展,为图系统带来了新的机遇和可能性。将图系统与人工智能、大语言模型相结合,可以充分发挥三者的优势,实现更高效的数据处理和分析,为各种应用场景提供更有价值的洞察和决策支持,从而推动各个领域的创新和发展,将三者相结合,可以实现更深入的语义理解、更精准的决策支持、高效的信息检索和个性化交互等。总的来看,图系统优化的主要目标有:1、查询性能优化:查询性能优化:通过优化图数据库和图处理引擎,减少查询响应时间,提高图数据的访问效率。2、运维自动化:运维自动化:能够适应动态的数据规模
161、和业务需求,实现系统的扩展伸缩、诊断调优。3、存储效率优化:存储效率优化:合理利用存储空间,降低存储成本,同时确保数据的完整性和一致性。4、系统安全增强:系统安全增强:建立完善的安全机制,防止数据泄露、误操作等安全问题。5、产品体验优化:产品体验优化:提供友好的用户界面和便捷的操作方式,使图系统易于使用和管理。3.5.2.1 查询性能优化查询性能优化 3.5.2.1.1 任务优化任务优化 一)一)优化执行计划优化执行计划 1)查询理解与重写 自然语言查询的复杂性使得数据库查询的准确理解变得困难。LLM 可以通过对自然语言查询的分析,理解用户的查询意图,并将其转化为准确的数据库查询语言表达形式。
162、Graph+AI:大模型浪潮下的图计算 45 LLM 还可以对复杂的查询进行重写,以提高查询的效率。例如,将嵌套查询重写为连接查询或子查询组合,减少查询的复杂性和执行时间。通过对查询的理解和重写,LLM 可以帮助数据库管理员和开发人员更快速地构建准确高效的查询。2)索引推荐 索引是提高数据库查询性能的重要手段。然而,选择合适的索引并非易事,需要对数据库模式和查询需求有深入的了解。LLM 可以通过分析数据库模式和历史查询记录,推荐可能提高查询性能的索引。例如,如果历史查询中经常根据某个列进行条件筛选,LLM 可以建议创建该列的索引。对于多表连接查询,LLM 可以推荐创建复合索引,以加快连接操作的
163、速度。同时,LLM 还可以解释创建每个推荐索引的理由,帮助数据库管理员做出决策。3)查询计划评估与选择 数据库引擎通常会为一个查询生成多个不同的执行计划,选择最优的执行计划对于提高查询性能至关重要。LLM 可以分析不同的基于规则的优化器(RBO)、基于成本的优化器(CBO)和基于人工智能的优化器(AIBO)等不同策略下的查询计划,并评估它们的潜在性能。从 RBO 到 CBO 再到 AIBO 的演进体现了查询优化策略的不断进步。RBO 主要依据固定的规则来选择执行计划,其优点是简单快速,但缺乏灵活性,无法适应复杂多变的查询环境。CBO 则是基于成本估算来选择执行计划,考虑了更多的因素如数据分布、
164、索引使用等,比 RBO 更加灵活和准确。AIBO 则是利用人工智能技术,如 LLM,对查询进行更深入的分析和理解,能够更好地适应各种复杂的查询场景。LLM 可以通过考虑查询的特点、数据库的统计信息和硬件资源等因素,预测每个计划的执行时间、资源消耗等性能指标。根据评估结果,LLM 可以为数据库引擎提供建议,选择最优的查询计划。例如,当多个计划在性能上接近时,LLM 可以根据特定的应用场景或性能指标偏好,推荐最合适的计划。同时,在查询执行过程中,并行计算和异构资源的调度也对查询性能有重要影响。并行计算可以通过同时处理多个任务来提高查询效率,例如将一个大型查询分解为多个子查询并行执行。而异构资源的调
165、度则可以合理利用不同类型的硬件资源,如 CPU、GPU 等。对于一些计算密集型的操作,可以将其分配到 GPU 上进行处理,以提高计算速度。LLM 可以分析查询的性质和硬件资源的情况,为并行计算和异构资源的调度提供建议,使得查询能够在更短的时间内完成。同时,在多节点的分布式数据库环境中,并行计算和异构资源调度还涉及到节点间的通信和协作,LLM 也可以对此提供分析和优化建议,以确保整个查询过程的高效执行。二)二)提升运行性能提升运行性能 1)实时监控与调整 Graph+AI:大模型浪潮下的图计算 46 在查询执行过程中,实时监控数据库的性能指标对于及时发现和解决性能问题至关重要。LLM可以通过与数
166、据库的监控系统集成,实时监控数据库的性能指标,如 CPU 使用率、内存占用、磁盘I/O 等。如果发现性能问题,如某个查询导致资源过度消耗或响应时间过长,LLM 可以提出调整建议。例如,建议调整数据库参数、临时增加资源分配(如内存或 CPU 核心),或者重新优化特定的查询。通过实时监控和调整,LLM 可以帮助数据库保持良好的运行时性能。2)异常检测与处理 查询执行过程中可能会出现各种异常情况,如死锁、长时间等待资源、查询超时等。这些异常情况会严重影响数据库的性能和可用性。LLM 可以通过对数据库日志和性能指标的分析,检测查询执行过程中的异常情况。一旦发现异常,LLM 可以提供诊断和解决方案。例如