> 文章列表 > Transformer时序

Transformer时序

Transformer时序

最近,针对时间序列预测 (TSF) 任务的基于 Transformer 的解决方案激增,尤其是针对具有挑战性的长期 TSF 问题。 Transformer 架构依靠自注意力机制有效地提取长序列中成对元素之间的语义相关性,在一定程度上具有排列不变性和反序性。然而,在时间序列建模中,我们要提取一组有序的连续点之间的时间关系。因此,尽管这些研究显示了性能改进,但基于 Transformer 的技术是否是长期时间序列预测的正确解决方案是一个值得研究的有趣问题。在这项工作中,我们质疑基于 Transformer 的 TSF 解决方案的有效性。在他们的实验中,比较的(非 Transformer)基线主要是自回归预测解决方案,由于不可避免的误差累积效应,它们通常具有较差的长期预测能力。相比之下,我们使用一个名为 DLinear 的简单到令人尴尬的架构,该架构进行直接多步 (DMS) 预测以进行比较。 DLinear 将时间序列分解为趋势序列和余数序列,并使用两个单层线性网络对这两个序列进行建模以用于预测任务。令人惊讶的是,它在大多数情况下都大大优于现有的基于 Transformer 的复杂模型。因此,我们得出结论,现有工作中基于 Transformer 的 TSF 解决方案相对较高的长期预测精度与 Transformer 架构的时间关系提取能力关系不大。相反,这主要是由于它们使用的非自回归 DMS 预测策略。我们希望这项研究也提倡在未来重新审视基于 Transformer 的解决方案对其他时间序列分析任务(例如,异常检测)的有效性。

Transformer模型的前提是成对元素之间的语义相关性,而self-attention机制本身是排列不变的。 考虑到时间序列中的原始数值数据(例如,股票价格或电价),它们之间几乎没有任何逐点语义相关性。 在时间序列建模中,我们主要关注一组连续点之间的时间关系,这些元素的顺序而不是配对关系起着最关键的作用。 虽然采用位置编码和使用令牌嵌入子系列(using tokens to embed sub-serie)有助于保留一些排序信息,但排列不变自注意机制的性质不可避免地导致时间信息丢失。 由于上述观察,我们有兴趣重新审视基于 Transformer 的 LTSF 解决方案的有效性