粗略阅读

本文主要介绍了一种GNN&LLM结合的新架构，主要目的是避免以往的结合方式中出现的一些缺陷

创新点

结构感知Transformer层：在 Transformer 层内嵌入 message-passing（节点级聚合与更新），并通过特殊 attention mask 保证文本的自回归因果性与图节点的置换不变性。节点在层内可以进行全注意力讨论，且节点 token 的位置编码被处理以避免顺序敏感性。
图 - 文本交叉注意力层：不把节点文本压缩成单一向量，而是按需用 cross-attention 从节点原始 token 序列抽取信息（节点 token 只能读自身文本，文本 token 只能读已经出现的节点文本），在保持信息完整性的同时控制复杂度。
GNN - LLM 双预测器：一端保留并行的 GNN 风格读出（适合分类/回归），另一端保留自回归 LLM 生成（适合自然语言输出）；两者可联合训练并在推理时混合/择优。。

传统方式的缺陷

GNN - centered：先让 LLM 把节点/边文本编码成定长向量，再交给 GNN。缺点：文本被压缩，语义细节丢失，且编码是任务无关的（task-agnostic），限制了复杂语义任务（比如需要生成语言的 QA）。
LLM－centered：把图信息转换成文本/tokens 让 LLM 直接处理并生成答案。缺点：图结构信息在长序列中难以保持、节点/边顺序敏感且无法并行预测（自回归造成），大图也受上下文窗口限制。

AI补充

Attention mask 与位置编码的具体策略：论文通过特殊的 attention mask 同时实现文本的自回归（因果下三角）和图节点的全注意力（置换不变性）；同一图内节点共享或被重置的位置编码以避免顺序敏感性。
消息传递（message passing）如何嵌入 Transformer：不是简单并行，而是在 Transformer 层内把节点 token 聚合成 node-level 向量、做邻居聚合（论文用了 mean/max/std 等 aggregator 的拼接），再用 gate 把 message-passing 的结果融回 token 表示。gate 通常初始化为 0，保护预训练权重。
Graph-Text Cross-Attention 的访问限制：不是任意 token 都能读任意节点的原文，节点 token 只能读取自身对应的文本，文本 token 则只能访问序列中已经出现的节点文本（以保持因果性）。这点很重要，因为它决定了模型如何避免把全部文本粗暴拼进上下文窗口。
双预测器（Twin-Predictor）训练/推理差异：训练时通常对 GNN predictor（并行分类/回归）和 LLM predictor（自回归生成）同时施加监督，推理时可并行获取两类输出并做融合或择优。
计算与微调细节：论文为节省训练成本使用 LoRA 低秩微调（多数预训练参数冻结），并在若干指定 Transformer 层注入图结构模块。这个细节对复现实验很关键。
实验与消融要点：补入哪些 benchmark 被用来评估（如 ogbn-arxiv、FB15k-237、CommonsenseQA、graph→text 任务等）和论文中提到的主要性能提升与消融结论（每个模块去掉都会掉性能）。这些结果支撑了方法有效性。

实现要点/技巧：特殊 attention mask、把 message-passing 的结果通过门控（gate）回写到 token 表示、用 LoRA 做低秩微调以降低微调开销、在特定层插入 MP 与 cross-attn。
实验结论（概要）：在节点分类、知识图谱补全、commonsense QA 与 graph→text 等多类任务上均显著优于多种 baselines；消融表明 cross-attn、gate、双预测器等模块均对性能有贡献。
局限：计算与内存开销高于简洁基线；生成仍有不可靠问题；尚未做大规模通用预训练，需要更多研究用于跨任务通用性。

GL-Fusion: Rethinking the Combination of Graph Neural Network and Large Language model阅读

粗略阅读

本文主要介绍了一种GNN&LLM结合的新架构，主要目的是避免以往的结合方式中出现的一些缺陷

创新点

传统方式的缺陷

AI补充