本文旨在介绍一项关于时间序列预测基础模型的benchmark研究。为了在多领域、多特征数据集上对多种时间序列预测基础模型进行全面统一的测评,华东师范大学联合丹麦奥尔堡大学开发了FoundTS,这一框架专门用于时间序列预测基础模型的系统测评。论文基于统一的评测结果,分析了现有时间序列预测基础模型的优势与不足,并提出了切实可行的改进方向,以推动基础模型性能的进一步提升。

论文地址: http://arxiv.org/abs/2410.11802
时间序列预测(Time Series Forecasting, TSF)是指利用历史观测数据来预测数据未来数据趋势,对于金融分析、气象预测、能源管理等多个领域具有至关重要的作用。
背景
近年来,专门针对特定领域数据集进行训练的模型(Specific models)在预测精度和推理速度上取得了显著提升。然而,当这些模型遇到新的领域或数据时,其泛化能力往往受到限制,表现并不理想。与此相比,在多领域时间序列数据或大规模语言数据集上进行预训练的基础模型(Foundation models)为提高时间序列预测模型的泛化能力提供了新的研究路径,但对这类模型的理解和研究目前仍显不足,主要原因有以下三点:
- 现有时间序列预测基础模型的实验设置缺乏一致性,如表1所示,这导致基于当前结果很难对不同基础模型的性能进行公正且一致的比较;
- 当前主流的时间序列预测的测评基准主要集中在特定模型上,很少关注基础模型;
- 现有的涉及基础模型的测试基准多停留在定性分析或单一场景的评估上,缺乏对模型在不同场景下性能的综合定量分析。

为了应对上述挑战,这篇论文提出了一个新的测评基准——FoundTS,旨在为时间序列预测基础模型提供一个全面统一的测评平台。通过FoundTS,能够对不同模型在多领域、多特征数据集上的性能进行系统性的分析,从而为时间序列预测领域的研究和实践提供更加可靠的参考。

FoundTS 测评框架
FoundTS 提供了一个标准化的评估流程,包括数据(data)、模型(models)和评估(evaluation)三个核心模块,如图1所示。

- 数据模块涵盖了来自10个不同领域的时间序列数据集(Stock, Health, Energy, Electricity, Environment, Traffic, Nature, Banking, Web, Economics),这些数据集具有多种特征(Seasonality, Trend, Stationarity, Transition, Shifting, Correlation, Non-Gaussianity),为时间序列预测提供了全面的数据支持。
- 模型模块将多个具有不同架构类型的时间序列预测模型分为三类:
- 基于多领域时间序列数据的预训练模型,论文从重建、自回归、直接预测和混合预测四个角度介绍了这些模型;
- 基于大规模语言模型的预训练模型,通过参数高效的微调策略或精心设计的prompt,充分利用LLMs强大的表征能力和序列建模能力,捕捉时间序列数据中的复杂模式。
- 特定模型,这些模型在特定数据集上进行训练和推理,包括于CNN的模型、基于Transformer的模型、基于MLP的模型等。
- 评估模块提供了一个全面的测评场景、可扩展的流程和统一的评估环境:
- 包含zero-shot、few-shot 和 full-shot的测评场景,全面探索了时间序列预测基础模型在不同测试场景下的性能。
- 支持灵活的选择回看窗口、预测窗口、数据划分与加载、采样策略,一致的实验设置更能确保测试结果的公平性和可靠性。
- 提供多种评估指标,如平均绝对误差(MAE)和均方误差(MSE)等,可以从不同角度对时间序列预测基础模型进行详尽剖析。