TSFM-Bench: A Comprehensive and Unified Benchmark of Foundation Models for Time Series Forecasting

本文旨在介绍一项关于时间序列预测基础模型的benchmark研究。为了在多领域、多特征数据集上对多种时间序列预测基础模型进行全面统一的测评，华东师范大学联合丹麦奥尔堡大学开发了FoundTS，这一框架专门用于时间序列预测基础模型的系统测评。论文基于统一的评测结果，分析了现有时间序列预测基础模型的优势与不足，并提出了切实可行的改进方向，以推动基础模型性能的进一步提升。

论文地址： http://arxiv.org/abs/2410.11802

时间序列预测（Time Series Forecasting, TSF）是指利用历史观测数据来预测数据未来数据趋势，对于金融分析、气象预测、能源管理等多个领域具有至关重要的作用。

背景

近年来，专门针对特定领域数据集进行训练的模型（Specific models）在预测精度和推理速度上取得了显著提升。然而，当这些模型遇到新的领域或数据时，其泛化能力往往受到限制，表现并不理想。与此相比，在多领域时间序列数据或大规模语言数据集上进行预训练的基础模型（Foundation models）为提高时间序列预测模型的泛化能力提供了新的研究路径，但对这类模型的理解和研究目前仍显不足，主要原因有以下三点：

现有时间序列预测基础模型的实验设置缺乏一致性，如表1所示，这导致基于当前结果很难对不同基础模型的性能进行公正且一致的比较；
当前主流的时间序列预测的测评基准主要集中在特定模型上，很少关注基础模型；
现有的涉及基础模型的测试基准多停留在定性分析或单一场景的评估上，缺乏对模型在不同场景下性能的综合定量分析。

表 1：不同时间序列预测基础模型实验设置比较。

为了应对上述挑战，这篇论文提出了一个新的测评基准——FoundTS，旨在为时间序列预测基础模型提供一个全面统一的测评平台。通过FoundTS，能够对不同模型在多领域、多特征数据集上的性能进行系统性的分析，从而为时间序列预测领域的研究和实践提供更加可靠的参考。

表 2：FoundTS 与其他时间序列预测基准的比较。

FoundTS 测评框架

FoundTS 提供了一个标准化的评估流程，包括数据（data）、模型（models）和评估（evaluation）三个核心模块，如图1所示。

图 1：FoundTS 架构。

数据模块涵盖了来自10个不同领域的时间序列数据集（Stock, Health, Energy, Electricity, Environment, Traffic, Nature, Banking, Web, Economics），这些数据集具有多种特征（Seasonality, Trend, Stationarity, Transition, Shifting, Correlation, Non-Gaussianity），为时间序列预测提供了全面的数据支持。
模型模块将多个具有不同架构类型的时间序列预测模型分为三类：
- 基于多领域时间序列数据的预训练模型，论文从重建、自回归、直接预测和混合预测四个角度介绍了这些模型；
- 基于大规模语言模型的预训练模型，通过参数高效的微调策略或精心设计的prompt，充分利用LLMs强大的表征能力和序列建模能力，捕捉时间序列数据中的复杂模式。
- 特定模型，这些模型在特定数据集上进行训练和推理，包括于CNN的模型、基于Transformer的模型、基于MLP的模型等。
评估模块提供了一个全面的测评场景、可扩展的流程和统一的评估环境：
- 包含zero-shot、few-shot 和 full-shot的测评场景，全面探索了时间序列预测基础模型在不同测试场景下的性能。
- 支持灵活的选择回看窗口、预测窗口、数据划分与加载、采样策略，一致的实验设置更能确保测试结果的公平性和可靠性。
- 提供多种评估指标，如平均绝对误差（MAE）和均方误差（MSE）等，可以从不同角度对时间序列预测基础模型进行详尽剖析。

实验

实验结果

论文在多个不同领域的数据集上对比了不同的时间序列预测基础模型以及端到端的特定模型在 zero-shot、few-shot 和 full-shot 场景下的性能表现。

表 3：zero-shot 设置下的实验结果。

表 4：采用 5% 数据对基础模型进行微调的 few-shot 设置下的实验结果。

表 5：full-shot 设置下的实验结果。

模型分析

论文对不同数据采样策略在时间序列预测基础模型中的效果进行了比较分析。结果表明，在few-shot场景中，数据采样策略的选择对模型性能有着显著影响。因此，只有在统一的实验设置下，才能对不同模型的性能进行公平和准确的评估。

表 6：不同采样策略。

论文探讨了多变量时序数据的通道依赖性对时间序列预测基础模型性能的影响，并建议未来在开发和构建时间序列预测基础模型时，应充分考虑并利用多变量数据之间的通道依赖关系。

图 2：按数据集多通道依赖性强弱排序的模型在 5% 数据的 few-shot 场景下的性能比较。

论文分析了不同框架下的时间序列预测基础模型之间的性能差异，指出未来研究需要进一步探索模型架构设计，以寻求在模型性能和参数规模之间达到最佳平衡点。

图 3：不同时间序列预测基础模型的参数量和预训练数据集大小下的模型 zero-shot 性能比较。

论文在一系列具有不同显著特征的数据集上，对时间序列预测基础模型处理多样化特征数据的能力进行了比较分析。

图 4：七个具有不同数据特征数据集上时间序列预测基础模型在 5% 数据的 few-shot 场景下性能比较。

论文对来自多领域时间序列数据或大规模语言数据的预训练知识对下游时间序列预测任务的实际效益进行了评估。

表 6：加载预训练参数（“p”）和随机初始化（“w/o p”）的时间序列预测基础模型在 5% 数据的 few-shot 场景下性能比较。

论文通过衡量时间序列预测基础模型在5%数据的few-shot场景下的微调时间与特定模型在full-shot场景下从头训练的时间，探讨了时间序列预测基础模型在效率和预测准确性方面的表现。

图5：模型效率。圆圈的大小代表模型参数的大小。

发现与观点

该论文从多个维度对时间序列预测基础模型进行了深入分析，并提出了关键发现和对未来研究方向的建议：

基础模型是否优于特定模型？

时间序列预测基础模型在zero-shot和full-shot场景下展现出了较强的学习能力，但在拥有充足训练数据的情况下，基础模型并不总是优于特定模型。
哪些基础模型表现更亮眼？

在评估基础模型的优越性时，需要考虑多个不同的维度。目前，没有任何一个单一的基础模型能够在所有方面都占据绝对优势。
未来应从哪些角度提升基础模型性能？
- 增强模型的通用性，使其能够适应多种不同的预测场景；
- 从训练数据、模型架构、预训练策略等多个角度进行优化，以更有效地利用大规模预训练数据；
- 在下游任务甚至预训练阶段，充分建模不同通道之间的依赖性，这对于处理多变量时间序列数据至关重要；
- 在实际应用中，需要合理平衡预测精度与训练、微调、推理的成本，这是将时间序列预测基础模型投入实际应用时不可忽视的问题。

其他文章

TSFM-Bench: A Comprehensive and Unified Benchmark of Foundation Models for Time Series Forecasting

less than 1 minute read

Ocean Significant Wave Height Estimation with Spatio-temporally Aware Large Language Models

less than 1 minute read

写评论 ...