Towards Graph Foundation Models: Training on Knowledge Graphs Enables Transferability to General Graphs

条件消息传递代表了GNN从无条件聚合向条件驱动推理的演进

本文提出一种新的图基础模型思路：只在少量知识图谱上做“归纳推理”预训练，就能在完全不微调的情况下，直接迁移到各种普通图上的节点/图/链路任务。

一、方法

SCR 框架：用“任务专用 KG”统一所有图任务
• 核心骨干：CMP（Conditional Message Passing）式 KG 归纳推理模型，只依赖 query (eq,rq)(e_q, r_q)(eq,rq) 条件化地计算实体表示。
• 节点分类：
为每个类别建 label 节点，引入关系 node is_attributed_with label；
预测节点类别 = 做 (node, is_attributed_with, ?) 的 tail prediction。
• 图分类：
为每个图建 super-graph 节点，节点连 node belongs_to super_graph；
图标签仍用 label 节点 + super_graph is_attributed_with label；
预测图类别 = 对 super-graph 做 tail prediction。
• KG 链路预测：
直接是 (head, relation, tail) 的标准归纳推理。
→ 三类任务统一成“给定 q=(eq,rq)q=(e_q, r_q)q=(eq,rq)，预测 tail 实体”的 KG 归纳推理。
SCMP：在不破坏归纳性的前提下注入语义
• 语义统一（SVD Feature Unifier）：
对任意来源的节点特征（BERT/MPNet/ontology/all-ones 等），用截断 SVD + LayerNorm 映射到统一维度的语义空间 X~\tilde XX~，解决“不同图语义空间不一致”的问题。
• 语义感知初始化 INIT2：
对每个 query 实体 eqe_qeq，在 X~\tilde XX~ 中选取一小撮语义最近邻 SqS_qSq（排除结构直接邻居）；
初始化：
 query 节点：向量 rqr_qrq；
 语义邻居：共享语义向量 vav_ava；
 其他节点：0；
保持 query 节点仍然“可区分”，不破坏 CMP 的理论假设，同时让语义近邻提前参与消息传递。
• 全局语义分支 Hg：
用同一骨干在图上对 X~\tilde XX~ 做一次无 query 的消息传递，得到全局语义表示 HgH_gHg；
最终实体表示 Hfinal=Hstructural+MLP(Hg)H_{\text{final}} = H_{\text{structural}} + \text{MLP}(H_g)Hfinal=Hstructural+MLP(Hg)，融合结构与语义。
训练与推理流程
• 预训练：
仅在 3 个常用 KG（WN18RR / FB15k-237 / CodexM）上做 inductive KG reasoning 训练；
在不同 batch 中轮换使用不同语义特征（文本 / ontology / all-ones），增强跨语义模态鲁棒性。
• 下游 zero-shot 推理：
对任意新图任务，先构造任务专用 KG（加 label / super-graph 节点和关系）；
用 SVD 统一其节点特征后，直接喂给预训练好的 SCR；
全程不微调，实现在多种一般图任务上的 zero-shot 推理。

二、创新点

把 KG 归纳推理正式当成 Graph Foundation Model 的预训练目标
只在少量 KG 上预训练，就能 zero-shot 迁移到大量一般图的 link/node/graph 任务上。
“任务专用 KG”统一节点/图/链路任务
通过 label 节点、super-graph 节点和专用关系，把不同下游任务都转成同一种 tail prediction 格式；
模型结构统一、推理接口统一，天然适配 unseen entity / relation / label。
SCMP 解决语义孤岛问题
SVD 统一语义空间 + INIT2 的局部语义注入 + 全局语义分支 Hg；
在不破坏 CMP 理论可分辨性的前提下，引入语义特征并显著提升性能；
对不同文本 encoder / 甚至非文本特征都具有较强鲁棒性。
系统性 zero-shot 实验验证
在 24 个 inductive KG 数据集上，对比 ULTRA、ProLINK 及监督 SOTA；
在多种节点/图分类数据集上，对比 MLP / GNN / 各类 graph prompt / 其他 GFM；
多数情况下 zero-shot SCR 超过现有 zero-shot GFM，某些任务接近甚至优于 fully-supervised GNN/GIN。

三、不足与潜在局限

预训练数据有限
目前只用少量静态常识 KG，规模和多样性都有限；
关于“扩规模后的 scaling law”和多源 KG 组合效果还缺乏系统研究。
任务专用 KG 构造与语义预处理开销
需要为每个新任务构建专用 KG，并做 SVD + 语义邻居搜索等预处理；
在超大图、动态图或在线场景中，工程成本和效率需要进一步优化。
任务类型仍相对集中
主要验证在静态图上的 link/node/graph 分类任务；
对时序图、推荐/交互图、更复杂的推理及真实工业场景，泛化能力仍待进一步验证。

总结
这篇工作把“在 KG 上做归纳推理”直接升级成一种 Graph Foundation Model 预训练范式，通过任务专用 KG + SCMP，把结构泛化能力和平滑的语义表示结合起来，做到：只在少量 KG 预训练，就能 zero-shot 做各种一般图任务。优势明显，但在预训练数据规模、任务广度和大规模应用上的工程实践，还有不小的拓展空间。