主要内容与核心方法
目标:
作者想把“图结构知识”真正注入到大语言模型(LLM)里,让模型在零样本与跨数据集/跨任务的图学习场景中也能泛化(如节点分类、链路预测),而不是只靠下游少量标注微调的传统GNN路线。为此提出 GraphGPT 框架。
核心做法:
- 文本–图对齐(Text-Graph Grounding):用对比式目标把图编码器与文本编码器的表示对齐(式(3)(4)),得到可插入LLM的“图token”。
- 双阶段图指令微调:先做自监督“图匹配”指令训练,再做任务特定指令(节点分类/链路预测);两阶段均冻结LLM与图编码器,只优化对齐投影器。
- CoT 蒸馏:用更强闭源模型(如 GPT-3.5)生成链式思考样本,提升分布偏移下的逐步推理能力。
创新点
- “图token + 指令微调”范式:不把复杂图结构冗长地转成纯文本,而是先对齐后以图token形式喂给LLM,再用双阶段指令系统性对齐与适配。
- 参数高效的轻量对齐器:仅训练线性对齐投影器,其余组件冻结;显著降低可训练参数与显存/时间开销(训练参数约降50×)。
- 面向图任务的 CoT 蒸馏:为图任务定制CoT并蒸馏到较小开源LLM,增强复杂图场景的可解释推理与泛化。
优缺点
优点
- 跨数据集/零样本更稳健:在监督与零样本场景整体优于多种SOTA基线,缓解GNN跨域迁移性能骤降。
- 训练与推理更经济:冻结LLM/图编码器、只训投影器,参数与显存需求显著下降;推理效率与精度权衡更好。
- 多任务指令可混合:链路预测/节点分类指令互相增益,提升多任务泛化能力。
不足
- 数据与评测范围偏窄:主要在 OGB-Arxiv、PubMed、Cora 三个学术图上评测,工业级异构/动态图仍待验证。
- 对齐器表达力有限:核心是一层线性投影,在更复杂关系/高阶结构上是否足够仍需更多实证。
- CoT 依赖闭源模型:蒸馏数据来自 GPT-3.5 等,可能带来数据成本与合规考量。