LLaGA: Large Language and Graph Assistant

本文介绍了一种新的方法，帮助LLM更好的理解图同时不损失LLM的通用性

一、方法

LLaGA 提出一个框架，让冻结的 LLM 能够利用图结构信息解决多种图任务。做法是：

先用两种“结构模板”把以某个节点为中心的局部子图表示成定长的节点序列向量；
再用一个可训练的 MLP（projector）把这些节点向量映射到 LLM token embedding 空间，插入到 prompt 中的专用位置；
LLM 本体和文本 encoder 完全冻结，只训练这个 projector。

详细模板：Neighborhood Detail Template（细粒度结构）
针对中心节点，构造一个固定深度、固定分支数的计算树（例如 2-hop，每层采样固定数目的邻居，不足用 [pad] 补齐）。
对这棵树做层序遍历（BFS 顺序），得到一个长度固定的节点序列。
对序列中每个位置：
用文本编码器（如 SimTeG / SBERT / RoBERTa）对该位置对应的节点文本做编码，得到节点特征；
预先在这个模板树上算好拉普拉斯特征向量，作为结构位置编码；
把两者拼起来作为该位置的 embedding；对 [pad] 只用位置编码。
这样得到一串“结构＋语义都对齐”的节点向量序列，适合需要细粒度邻居信息的任务（电商商品分类等）。
粗略模板：Hop-Field Overview Template（按 hop 聚合的视野）
以中心节点为 0-hop，逐层向外看 1-hop、2-hop、…邻居；
对每一层（每个 hop）的邻居节点，对其文本向量做平均（或者类似的聚合），得到一个 hop-level 的向量 ℎ0,ℎ1,ℎ2,…h0,h1,h2,…。
这串 hop 向量就是“从近到远”的概览序列，序列长度 = 设定的最大 hop 数；
适合更依赖整体邻域分布、对单个邻居细节不敏感的任务（例如某些论文领域预测）。
映射到 LLM token 空间的 projector

上面任一模板都会得到一个序列向量(ℎ1,…,ℎ𝑛)
用一个小的多层感知机 projector 𝑓𝜃，对每个位置做变换：

得到维度和 LLM token embedding 一致的向量
构造 prompt 时，在类似 Given a node-centered graph: 的位置，直接把替换为这串 𝑒1,…,𝑒𝑛 embedding：
其他文字部分仍然走 LLM 自带的 tokenizer + embedding lookup；
这一段则跳过 tokenizer，直接塞 projector 输出的 embedding。
训练时只更新 projector 的参数 𝜃，LLM 和文本 encoder 都冻住。
统一多任务训练

作者把三类图任务都改写成 QA 形式，用同一套 LLM + projector 来做：
节点分类：
Prompt：给出节点序列，问“中心节点属于哪个类别？”
Answer：输出具体类别名（如 cs.NA 等）。
链路预测：
Prompt：给出两个中心节点各自的子图序列，问“这两个节点是否应该有边？回答 yes 或 no。”
Answer：yes / no。
节点描述：
Prompt：给出节点子图序列，要求用自然语言描述这个节点（领域 + 大致内容）。
Answer：节点的文字描述，ground truth 来自原始文本和标签。
把来自 4 个数据集 × 3 种任务（共 12 个子任务）的样本混在一起训练一个 projector，这就是他们所谓的统一模型（General model）。

训练目标：最大化在这些 QA 样本上正确生成答案 token 的概率，本质是标准的语言模型交叉熵 loss，只在 answer 部分回传梯度到 projector。

二、创新点

可以在笔记里这样列：

结构感知模板把“图 → 序列”这件事做得更系统
不再简单地把图写成自然语言，而是用定长模板（计算树 + Laplacian 位置编码 / hop 聚合）对齐结构位置信息；
对 LLM 来说，看到的是一串位置稳定的 embedding，方便“学会”哪些位置代表“近邻”“远邻”等结构角色。
只训练一个小 projector，就能让冻结的 LLM 做多种图任务
LLM 和文本 encoder 完全冻结，减少训练成本；
统一的 projector 在多数据集、多任务上训练，表现依然优于很多专门为单任务设计的 GNN/图 Transformer。
任务统一为 QA，天然支持多任务和自然语言解释
节点分类、链路预测和节点描述都变成“给你图＋问题，输出一段话”；
自带可解释性：模型不仅能给标签，还能输出对节点的语义描述，而且能从描述中恢复出正确 label。
较强的零样本泛化能力
在若干场景下，可以在 Arxiv / Pubmed 等图上训练，迁移到 Cora 或 Products 做 zero-shot 链路预测、节点分类，表现优于传统 GNN 和 GraphGPT。

三、不足与潜在局限

主要还是“节点级局部子图”，对特别长程的结构信息不一定友好
模板深度、采样的邻居数量都是有限的；
高度依赖采样到的局部结构，可能对长距离依赖、全局拓扑模式不敏感。
预处理和模板构造的成本不低
需要为每个中心节点构建计算树 / hop 邻域；
在模板树上预先计算 Laplacian 位置编码；
大规模动态图或超大图上，这部分开销会比较重。
序列长度不可太长，高度依赖模板设计
LLM 的输入长度有限，所以模板只能编码有限大小的邻域；
多数情况需要截断/采样，可能丢掉部分关键信息；
模板超参数（深度、采样数、hop 数）需要人为设定，迁移到其他图类型时可能要重调。
当前实验集中在有文本属性的图 & 节点级任务
很依赖节点有较丰富的文本描述（论文摘要、商品描述）；
对于少文本甚至无文本的图，以及图级任务（graph classification）或复杂子图推理，还没有完整验证。
LLM 冻结的好处是省事，但上限也受限于基座 LLM
如果基座 LLM 本身推理／数学能力有限，projector 再强也可能有上限；
进一步的方向可能是 projector + 轻量 LoRA / adapter 一起调。

总结

LLaGA 本质上是一个“图 → 结构感知序列 → LLM token embedding”的桥接框架：
通过两种节点级结构模板，把局部子图编码成定长序列向量，再用一个小的投影器把这些向量塞进冻结的 LLM 中。
在节点分类、链路预测和节点描述三类任务上，LLaGA 既能达到甚至超越专门的图神经网络，又保留了 LLM 的多任务能力和自然语言解释能力，并在跨图数据集的 zero-shot 场景中表现出不错的泛化。但它仍然主要适用于有丰富文本属性、节点级的图任务，对超大规模图、无文本图和更复杂的全局结构推理，还有不少扩展空间。