本文介绍了一种新的方法,帮助LLM更好的理解图同时不损失LLM的通用性

一、方法

LLaGA 提出一个框架,让冻结的 LLM 能够利用图结构信息解决多种图任务。做法是:

  1. 详细模板:Neighborhood Detail Template(细粒度结构)
    针对中心节点,构造一个固定深度、固定分支数的计算树(例如 2-hop,每层采样固定数目的邻居,不足用 [pad] 补齐)。
    对这棵树做层序遍历(BFS 顺序),得到一个长度固定的节点序列。
    对序列中每个位置:
    用文本编码器(如 SimTeG / SBERT / RoBERTa)对该位置对应的节点文本做编码,得到节点特征;
    预先在这个模板树上算好拉普拉斯特征向量,作为结构位置编码;
    把两者拼起来作为该位置的 embedding;对 [pad] 只用位置编码。
    这样得到一串“结构+语义都对齐”的节点向量序列,适合需要细粒度邻居信息的任务(电商商品分类等)。

  2. 粗略模板:Hop-Field Overview Template(按 hop 聚合的视野)
    以中心节点为 0-hop,逐层向外看 1-hop、2-hop、…邻居;
    对每一层(每个 hop)的邻居节点,对其文本向量做平均(或者类似的聚合),得到一个 hop-level 的向量 ℎ0,ℎ1,ℎ2,…h0,h1,h2,…。
    这串 hop 向量就是“从近到远”的概览序列,序列长度 = 设定的最大 hop 数;
    适合更依赖整体邻域分布、对单个邻居细节不敏感的任务(例如某些论文领域预测)。

  3. 映射到 LLM token 空间的 projector

    上面任一模板都会得到一个序列向量(ℎ1,…,ℎ𝑛)
    用一个小的多层感知机 projector 𝑓𝜃,对每个位置做变换:
    Image
    得到维度和 LLM token embedding 一致的向量
    构造 prompt 时,在类似 Given a node-centered graph: 的位置,直接把 替换为这串 𝑒1,…,𝑒𝑛 embedding:
    其他文字部分仍然走 LLM 自带的 tokenizer + embedding lookup;
    这一段则跳过 tokenizer,直接塞 projector 输出的 embedding。
    训练时只更新 projector 的参数 𝜃,LLM 和文本 encoder 都冻住。

  4. 统一多任务训练

    作者把三类图任务都改写成 QA 形式,用同一套 LLM + projector 来做:
    节点分类:
    Prompt:给出节点序列,问“中心节点属于哪个类别?”
    Answer:输出具体类别名(如 cs.NA 等)。
    链路预测:
    Prompt:给出两个中心节点各自的子图序列,问“这两个节点是否应该有边?回答 yes 或 no。”
    Answer:yes / no。
    节点描述:
    Prompt:给出节点子图序列,要求用自然语言描述这个节点(领域 + 大致内容)。
    Answer:节点的文字描述,ground truth 来自原始文本和标签。
    把来自 4 个数据集 × 3 种任务(共 12 个子任务)的样本混在一起训练一个 projector,这就是他们所谓的统一模型(General model)。

    训练目标:最大化在这些 QA 样本上正确生成答案 token 的概率,本质是标准的语言模型交叉熵 loss,只在 answer 部分回传梯度到 projector。

二、创新点

可以在笔记里这样列:

  1. 结构感知模板把“图 → 序列”这件事做得更系统
    不再简单地把图写成自然语言,而是用定长模板(计算树 + Laplacian 位置编码 / hop 聚合)对齐结构位置信息;
    对 LLM 来说,看到的是一串位置稳定的 embedding,方便“学会”哪些位置代表“近邻”“远邻”等结构角色。
  2. 只训练一个小 projector,就能让冻结的 LLM 做多种图任务
    LLM 和文本 encoder 完全冻结,减少训练成本;
    统一的 projector 在多数据集、多任务上训练,表现依然优于很多专门为单任务设计的 GNN/图 Transformer。
  3. 任务统一为 QA,天然支持多任务和自然语言解释
    节点分类、链路预测和节点描述都变成“给你图+问题,输出一段话”;
    自带可解释性:模型不仅能给标签,还能输出对节点的语义描述,而且能从描述中恢复出正确 label。
  4. 较强的零样本泛化能力
    在若干场景下,可以在 Arxiv / Pubmed 等图上训练,迁移到 Cora 或 Products 做 zero-shot 链路预测、节点分类,表现优于传统 GNN 和 GraphGPT。

三、不足与潜在局限

  1. 主要还是“节点级局部子图”,对特别长程的结构信息不一定友好
    模板深度、采样的邻居数量都是有限的;
    高度依赖采样到的局部结构,可能对长距离依赖、全局拓扑模式不敏感。
  2. 预处理和模板构造的成本不低
    需要为每个中心节点构建计算树 / hop 邻域;
    在模板树上预先计算 Laplacian 位置编码;
    大规模动态图或超大图上,这部分开销会比较重。
  3. 序列长度不可太长,高度依赖模板设计
    LLM 的输入长度有限,所以模板只能编码有限大小的邻域;
    多数情况需要截断/采样,可能丢掉部分关键信息;
    模板超参数(深度、采样数、hop 数)需要人为设定,迁移到其他图类型时可能要重调。
  4. 当前实验集中在有文本属性的图 & 节点级任务
    很依赖节点有较丰富的文本描述(论文摘要、商品描述);
    对于少文本甚至无文本的图,以及图级任务(graph classification)或复杂子图推理,还没有完整验证。
  5. LLM 冻结的好处是省事,但上限也受限于基座 LLM
    如果基座 LLM 本身推理/数学能力有限,projector 再强也可能有上限;
    进一步的方向可能是 projector + 轻量 LoRA / adapter 一起调。

总结

LLaGA 本质上是一个“图 → 结构感知序列 → LLM token embedding”的桥接框架:
通过两种节点级结构模板,把局部子图编码成定长序列向量,再用一个小的投影器把这些向量塞进冻结的 LLM 中。
在节点分类、链路预测和节点描述三类任务上,LLaGA 既能达到甚至超越专门的图神经网络,又保留了 LLM 的多任务能力和自然语言解释能力,并在跨图数据集的 zero-shot 场景中表现出不错的泛化。但它仍然主要适用于有丰富文本属性、节点级的图任务,对超大规模图、无文本图和更复杂的全局结构推理,还有不少扩展空间。