在微调过程中的参数通常保持冻结状态因为额外的梯度会削弱模型的原有稳健性特性。同样的原因图嵌入不会执行交叉注意力。本身可以在大规模数据集上进行预训练以建立其一般语言先验即使在开始时随机初始化M也能获得相同的实验结果。 实验设置 在实验中作者展示了T为大语言模型架构中的分布外推理带来的显著优势。Tm架构和初始化 论文使用hh家族的一个-y架构层的Tm模型首先在MTxt上进行了预训练参数量有M上下文大小为。 为了探究初始化设置的影响作者设计了两个变体进行消融实验。 第一个变体中Tm权重用预训练的结果初始化模拟微调场景;第二个变体则是完全随机的初始化。
这两个模型分别被标记 美国电话号码表 为「预训练」和「未训练」。随机位置Tm的长度泛化与推理稳健性。 论文地址htt//x.//. 作者也提到随机位置嵌入确实在基线模型和T上都带来了显著增益因此本文中的所有实验也都使用随机位置嵌入。预训练 论文使用-基准中的问题预训练了一个多任务基于M的输入问题规模最多达个。 由于-的标准图结构表达这样训练出来的有很强的分布外泛化能力有时在倍大小的图上仍保持竞争力这种丰富的知识表达正是文本模型可资利用的。结合节点和边缘的跨注意力贡献 在上述的算法描述中我们将模型的图输入限于个节点但作者注意到了之前的研究曾尝试过同时对图的节点和边生成隐变量表达也许可以添加有用的互补信息。
于是实验中引入图中边的特征t ∈××并再次应用公式让Θt对t进行交叉注意力。 作者也尝试其他方法希望将t和t结合起来比如拼接后加线性层组合向量求和层M或者用m-hmt过程使二者的贡献正交化但这些都没有给原始方法带来提升。数据集 训练数据使用-Txt基准即-基准的文本版本以确定性的方式直接从基于图的-中派生因此这两个数据集传达的是完全相同的信息。 表展示了该数据集的几个样本以及它们的输入大小和t数量。 由于语言模型上下文长度的限制实验选择用规模为的问题训练并在规模为的问题上评估。 值得注意的是与当前的评估环境相比-Txt是对M最具挑战性的长程推理任务之一——相比小学数学复杂度显著提高。