本文介绍了一种新的方法,帮助LLM更好的理解图同时不损失LLM的通用性
一、方法
LLaGA 提出一个框架,让冻结的 LLM 能够利用图结构信息解决多种图任务。做法是:
- 先用两种“结构模板”把以某个节点为中心的局部子图表示成定长的节点序列向量;
- 再用一个可训练的 MLP(projector)把这些节点向量映射到 LLM token embedding 空间,插入到 prompt 中的专用位置;
- LLM 本体和文本 encoder 完全冻结,只训练这个 projector。
-
详细模板:Neighborhood Detail Template(细粒度结构)
针对中心节点,构造一个固定深度、固定分支数的计算树(例如 2-hop,每层采样固定数目的邻居,不足用 [pad] 补齐)。
对这棵树做层序遍历(BFS 顺序),得到一个长度固定的节点序列。
对序列中每个位置:
用文本编码器(如 SimTeG / SBERT / RoBERTa)对该位置对应的节点文本做编码,得到节点特征;
预先在这个模板树上算好拉普拉斯特征向量,作为结构位置编码;
把两者拼起来作为该位置的 embedding;对 [pad] 只用位置编码。
这样得到一串“结构+语义都对齐”的节点向量序列,适合需要细粒度邻居信息的任务(电商商品分类等)。 -
粗略模板:Hop-Field Overview Template(按 hop 聚合的视野)
以中心节点为 0-hop,逐层向外看 1-hop、2-hop、…邻居;
对每一层(每个 hop)的邻居节点,对其文本向量做平均(或者类似的聚合),得到一个 hop-level 的向量 ℎ0,ℎ1,ℎ2,…h0,h1,h2,…。
这串 hop 向量就是“从近到远”的概览序列,序列长度 = 设定的最大 hop 数;
适合更依赖整体邻域分布、对单个邻居细节不敏感的任务(例如某些论文领域预测)。 -
映射到 LLM token 空间的 projector
上面任一模板都会得到一个序列向量(ℎ1,…,ℎ𝑛)
用一个小的多层感知机 projector 𝑓𝜃,对每个位置做变换:
得到维度和 LLM token embedding 一致的向量
构造 prompt 时,在类似 Given a node-centered graph: 的位置,直接把 替换为这串 𝑒1,…,𝑒𝑛 embedding:
其他文字部分仍然走 LLM 自带的 tokenizer + embedding lookup;
这一段则跳过 tokenizer,直接塞 projector 输出的 embedding。
训练时只更新 projector 的参数 𝜃,LLM 和文本 encoder 都冻住。 -
统一多任务训练
作者把三类图任务都改写成 QA 形式,用同一套 LLM + projector 来做:
节点分类:
Prompt:给出节点序列,问“中心节点属于哪个类别?”
Answer:输出具体类别名(如 cs.NA 等)。
链路预测:
Prompt:给出两个中心节点各自的子图序列,问“这两个节点是否应该有边?回答 yes 或 no。”
Answer:yes / no。
节点描述:
Prompt:给出节点子图序列,要求用自然语言描述这个节点(领域 + 大致内容)。
Answer:节点的文字描述,ground truth 来自原始文本和标签。
把来自 4 个数据集 × 3 种任务(共 12 个子任务)的样本混在一起训练一个 projector,这就是他们所谓的统一模型(General model)。训练目标:最大化在这些 QA 样本上正确生成答案 token 的概率,本质是标准的语言模型交叉熵 loss,只在 answer 部分回传梯度到 projector。
二、创新点
可以在笔记里这样列:
- 结构感知模板把“图 → 序列”这件事做得更系统
不再简单地把图写成自然语言,而是用定长模板(计算树 + Laplacian 位置编码 / hop 聚合)对齐结构位置信息;
对 LLM 来说,看到的是一串位置稳定的 embedding,方便“学会”哪些位置代表“近邻”“远邻”等结构角色。 - 只训练一个小 projector,就能让冻结的 LLM 做多种图任务
LLM 和文本 encoder 完全冻结,减少训练成本;
统一的 projector 在多数据集、多任务上训练,表现依然优于很多专门为单任务设计的 GNN/图 Transformer。 - 任务统一为 QA,天然支持多任务和自然语言解释
节点分类、链路预测和节点描述都变成“给你图+问题,输出一段话”;
自带可解释性:模型不仅能给标签,还能输出对节点的语义描述,而且能从描述中恢复出正确 label。 - 较强的零样本泛化能力
在若干场景下,可以在 Arxiv / Pubmed 等图上训练,迁移到 Cora 或 Products 做 zero-shot 链路预测、节点分类,表现优于传统 GNN 和 GraphGPT。
三、不足与潜在局限
- 主要还是“节点级局部子图”,对特别长程的结构信息不一定友好
模板深度、采样的邻居数量都是有限的;
高度依赖采样到的局部结构,可能对长距离依赖、全局拓扑模式不敏感。 - 预处理和模板构造的成本不低
需要为每个中心节点构建计算树 / hop 邻域;
在模板树上预先计算 Laplacian 位置编码;
大规模动态图或超大图上,这部分开销会比较重。 - 序列长度不可太长,高度依赖模板设计
LLM 的输入长度有限,所以模板只能编码有限大小的邻域;
多数情况需要截断/采样,可能丢掉部分关键信息;
模板超参数(深度、采样数、hop 数)需要人为设定,迁移到其他图类型时可能要重调。 - 当前实验集中在有文本属性的图 & 节点级任务
很依赖节点有较丰富的文本描述(论文摘要、商品描述);
对于少文本甚至无文本的图,以及图级任务(graph classification)或复杂子图推理,还没有完整验证。 - LLM 冻结的好处是省事,但上限也受限于基座 LLM
如果基座 LLM 本身推理/数学能力有限,projector 再强也可能有上限;
进一步的方向可能是 projector + 轻量 LoRA / adapter 一起调。
总结
LLaGA 本质上是一个“图 → 结构感知序列 → LLM token embedding”的桥接框架:
通过两种节点级结构模板,把局部子图编码成定长序列向量,再用一个小的投影器把这些向量塞进冻结的 LLM 中。
在节点分类、链路预测和节点描述三类任务上,LLaGA 既能达到甚至超越专门的图神经网络,又保留了 LLM 的多任务能力和自然语言解释能力,并在跨图数据集的 zero-shot 场景中表现出不错的泛化。但它仍然主要适用于有丰富文本属性、节点级的图任务,对超大规模图、无文本图和更复杂的全局结构推理,还有不少扩展空间。