上传者: 48018951
|
上传时间: 2025-12-03 11:46:03
|
文件大小: 1.74MB
|
文件类型: PDF
SimMTM(Simple Masked Time-Series Modeling)是一种预训练框架,专为时间序列数据设计,旨在通过自我监督学习提升模型对时间序列特征的理解能力。该框架受到自监督预训练和流形学习的启发,尤其借鉴了图像领域的Masked Autoencoders(MAE)的mask建模思想,但针对时间序列数据的独特性质进行了优化。
在传统的预训练中,特别是图像处理领域,如MAE,模型会随机屏蔽部分输入,然后尝试重构整个图像。然而,对于时间序列数据,直接随机屏蔽会破坏序列中的连续性和时间依赖性,使得重构任务变得困难。为了解决这个问题,SimMTM提出了一个新的方法,它并不尝试从单个被屏蔽序列中直接恢复原始序列,而是通过多次随机屏蔽同一序列,形成多个“邻居”序列,并利用这些邻居序列的组合信息来重构原始序列。
具体来说,SimMTM的模型框架包括四个主要模块:随机屏蔽、表示学习、序列级相似性学习和逐点聚合。在随机屏蔽阶段,模型会生成多个被随机掩蔽的时间序列。表示学习阶段,使用Transformer这样的编码器从这些被屏蔽的序列中提取特征。接下来,通过一个简单的多层感知机(MLP)投影层得到序列级表示,并计算所有序列之间的相似性,形成一个相似性矩阵。逐点聚合阶段,依据这个相似性矩阵,模型对序列的特征进行加权聚合,以恢复原始序列。通过解码器输出重构的时间序列。
SimMTM的创新之处在于:
1. 提出了一种新的掩蔽时间序列建模任务,即基于多个被掩蔽的序列在流形上重构原始序列,利用流形外的“邻居”序列来补充时间信息。
2. 设计了一个简单但有效的预训练框架,通过在序列表示空间中学习的相似性聚合点表示来进行重建。
3. 在各种时间序列分析任务中,如低级预测和高级分类,SimMTM都能展现出先进的微调性能,无论是在本领域还是跨领域设置。
SimMTM为时间序列的自我监督预训练提供了一个新的视角,通过流形学习和多序列聚合,有效地处理了时间序列数据的连续性问题,提高了模型在时间序列任务中的表现。这一框架不仅降低了对标注数据的依赖,还增强了模型对时间序列数据内在结构的理解。