Benchmark

TSFM-Bench: A Comprehensive and Unified Benchmark of Foundation Models for Time Series Forecasting June 8, 2025 less than 1 minute read

本文旨在介绍一项关于时间序列预测基础模型的benchmark研究。为了在多领域、多特征数据集上对多种时间序列预测基础模型进行全面统一的测评，华东师范大学联合丹麦奥尔堡大学开发了FoundTS，这一框架专门用于时间序列预测基础模型的系统测评。论文基于统一的评测结果，分析了现有时间序列预测基础模型的优势与不足，并提出了切实可行的改进方向，以推动基础模型性能的进一步提升。

论文地址： http://arxiv.org/abs/2410.11802

时间序列预测（Time Series Forecasting, TSF）是指利用历史观测数据来预测数据未来数据趋势，对于金融分析、气象预测、能源管理等多个领域具有至关重要的作用。

背景

近年来，专门针对特定领域数据集进行训练的模型（Specific models）在预测精度和推理速度上取得了显著提升。然而，当这些模型遇到新的领域或数据时，其泛化能力往往受到限制，表现并不理想。与此相比，在多领域时间序列数据或大规模语言数据集上进行预训练的基础模型（Foundation models）为提高时间序列预测模型的泛化能力提供了新的研究路径，但对这类模型的理解和研究目前仍显不足，主要原因有以下三点：

现有时间序列预测基础模型的实验设置缺乏一致性，如表1所示，这导致基于当前结果很难对不同基础模型的性能进行公正且一致的比较；
当前主流的时间序列预测的测评基准主要集中在特定模型上，很少关注基础模型；
现有的涉及基础模型的测试基准多停留在定性分析或单一场景的评估上，缺乏对模型在不同场景下性能的综合定量分析。

表 1：不同时间序列预测基础模型实验设置比较。

为了应对上述挑战，这篇论文提出了一个新的测评基准——FoundTS，旨在为时间序列预测基础模型提供一个全面统一的测评平台。通过FoundTS，能够对不同模型在多领域、多特征数据集上的性能进行系统性的分析，从而为时间序列预测领域的研究和实践提供更加可靠的参考。

表 2：FoundTS 与其他时间序列预测基准的比较。

FoundTS 测评框架

FoundTS 提供了一个标准化的评估流程，包括数据（data）、模型（models）和评估（evaluation）三个核心模块，如图1所示。

图 1：FoundTS 架构。

数据模块涵盖了来自10个不同领域的时间序列数据集（Stock, Health, Energy, Electricity, Environment, Traffic, Nature, Banking, Web, Economics），这些数据集具有多种特征（Seasonality, Trend, Stationarity, Transition, Shifting, Correlation, Non-Gaussianity），为时间序列预测提供了全面的数据支持。
模型模块将多个具有不同架构类型的时间序列预测模型分为三类：
- 基于多领域时间序列数据的预训练模型，论文从重建、自回归、直接预测和混合预测四个角度介绍了这些模型；
- 基于大规模语言模型的预训练模型，通过参数高效的微调策略或精心设计的prompt，充分利用LLMs强大的表征能力和序列建模能力，捕捉时间序列数据中的复杂模式。
- 特定模型，这些模型在特定数据集上进行训练和推理，包括于CNN的模型、基于Transformer的模型、基于MLP的模型等。
评估模块提供了一个全面的测评场景、可扩展的流程和统一的评估环境：
- 包含zero-shot、few-shot 和 full-shot的测评场景，全面探索了时间序列预测基础模型在不同测试场景下的性能。
- 支持灵活的选择回看窗口、预测窗口、数据划分与加载、采样策略，一致的实验设置更能确保测试结果的公平性和可靠性。
- 提供多种评估指标，如平均绝对误差（MAE）和均方误差（MSE）等，可以从不同角度对时间序列预测基础模型进行详尽剖析。

实验

Deep Learning

Ocean Significant Wave Height Estimation with Spatio-temporally Aware Large Language Models August 1, 2024 less than 1 minute read

本文介绍决策智能实验室和河口海岸国重合作的AI4Ocean的工作——海洋有效波高估计。

作者： 李哲，徐榕荟，胡吉林，彭忠，卢玺，郭晨娟，杨彬

关键词： 海洋有效波高预测，大语言模型，提示微调

摘要： 有效波高（SWH）是海洋科学中的一个重要指标，可以显著反应海洋波浪变化，对全海域SWH进行准确估算是至关重要的。传统数值模型在处理SWH估算任务中虽然具备成熟理论基础，但存在计算效率低下和难以进一步提高的问题。虽然，机器学习技术为解决上述问题提供新的可能性，但由于有限的观测技术和高昂的观测成本，实际观测到的海洋数据的严重稀缺，限制了机器学习模型的潜力。因此，我们提出了一个海洋SWH估算框架（Orca）。具体来说，Orca通过所设计的提示模板实现LLM在SWH估算任务上的迁移，使用一种新的时空感知编码模块增强了传统大语言模型（LLM）的时空推理能力。最终通过大量实验证明了Orca在SWH估算中取得了SOAT且高效的性能。

1. 引言

有效波高（Significant Wave Height, SWH）是海洋科学中的一个重要指标，反映了海洋活动的状态。异常波浪会对人类社会和自然环境造成严重破坏，包括生产损失、人员伤亡和生态损害等。因此对海洋SWH的准确估算关系到各类海上活动的安全，如海上导航、渔业运输和海洋能源开发等。

目前SWH估算的方法主要分为两类：传统的数值模型方法和基于机器学习的方法。数值模型基于物理学理论构建，通过利用观测数据推演海洋波浪的所有变化实现对全海域SWH的估算。经过多年的研究积累，数值模型已经具备坚实的理论基础和准确性。但对海洋波浪变化的所有可能性的推演往往需要大量计算资源，且难以适应新的影响因素，模型性能过于依赖物理理论。因此，基于机器学习的方法已经成为一种很有前途的替代方法，在SWH估算中提供了更好的准确性和更少的计算时间。然而，同时也面临着两个主要的挑战：一方面，实际观测的SWH数据过于稀疏。由于观测技术、观测环境以及观测成本的限制，海洋中实际部署的观测浮标非常稀少，如图1显示了墨西哥湾浮标的分布。这种稀缺性阻碍了基于机器学习的方法的发展。另一方面，波浪的产生是不同方向多种力的相互作用，因此波的变化具有很强的时空相关性，但目前基于机器学习的方法未能捕捉到如此复杂的关系。

图1：墨西哥湾的浮标分布。浮标所在的网格为红色的

为了解决上述两个挑战，我们提出了一个海洋SWH估算框架——Orca。具体来说，首先，由于大型语言模型（Large Language Model, LLM）在不同领域小样本场景下展现出了强大的泛化能力，我们以LLM作为模型主干，通过特定的提示模板和嵌入模块实现LLM的迁移，解决SWH估算中的数据稀疏性问题。其次，为了增强LLM的时空推理能力，我们将基于浮标的数据分割成重叠的补丁，通过一种新的时空编码模块捕捉海洋波浪的时空信息。同时，我们通过正则化项增加数值模型的物理知识对模型估算的约束。Orca整合了数值模型和机器学习模型的优点，弥补了LLM时空推理能力的不足，为海洋SWH估算提供新的方向。

综上所述，我们在本文中做出以下贡献：

Orca是第一个将LLM引入海洋SWH估算的模型。
我们设计了一个特定的提示模板和提示嵌入模块，通过有限数据对LLM进行微调，解决了数据稀疏问题。
我们提出了一种新的时空感知编码模块，补足了LLM的时空推理能力。
进行了大量的实验，证明了Orca的计算效率和准确性。

2. 定义

有效波高（SWH）： 在给定区域的一组波中，最高1/3波浪的平均高度。
基于浮标的数据： $M$个固定在不同位置的浮标在$T$个连续时间间隔中收集到的$F$种观测变量序列，记作$\mathbf{X} \in \mathbb{R}^{F \times M \times T}$。
基于网格的有效波高（GSWH）： $T$个连续时间间隔内每个网格区域内的平均SWH，记作$\mathbf{Y}\in \mathbb{R}^{K \times J \times T}$，其中$K$和$J$分别表示行数和列数。
问题定义 给定在$T$个连续时间间隔的基于浮标的数据X，估算对应时间的GSWH值$Y$。

3. 方法

Foundation Models

TSFM-Bench: A Comprehensive and Unified Benchmark of Foundation Models for Time Series Forecasting June 8, 2025 less than 1 minute read

本文旨在介绍一项关于时间序列预测基础模型的benchmark研究。为了在多领域、多特征数据集上对多种时间序列预测基础模型进行全面统一的测评，华东师范大学联合丹麦奥尔堡大学开发了FoundTS，这一框架专门用于时间序列预测基础模型的系统测评。论文基于统一的评测结果，分析了现有时间序列预测基础模型的优势与不足，并提出了切实可行的改进方向，以推动基础模型性能的进一步提升。

论文地址： http://arxiv.org/abs/2410.11802

时间序列预测（Time Series Forecasting, TSF）是指利用历史观测数据来预测数据未来数据趋势，对于金融分析、气象预测、能源管理等多个领域具有至关重要的作用。

背景

近年来，专门针对特定领域数据集进行训练的模型（Specific models）在预测精度和推理速度上取得了显著提升。然而，当这些模型遇到新的领域或数据时，其泛化能力往往受到限制，表现并不理想。与此相比，在多领域时间序列数据或大规模语言数据集上进行预训练的基础模型（Foundation models）为提高时间序列预测模型的泛化能力提供了新的研究路径，但对这类模型的理解和研究目前仍显不足，主要原因有以下三点：

现有时间序列预测基础模型的实验设置缺乏一致性，如表1所示，这导致基于当前结果很难对不同基础模型的性能进行公正且一致的比较；
当前主流的时间序列预测的测评基准主要集中在特定模型上，很少关注基础模型；
现有的涉及基础模型的测试基准多停留在定性分析或单一场景的评估上，缺乏对模型在不同场景下性能的综合定量分析。

表 1：不同时间序列预测基础模型实验设置比较。

为了应对上述挑战，这篇论文提出了一个新的测评基准——FoundTS，旨在为时间序列预测基础模型提供一个全面统一的测评平台。通过FoundTS，能够对不同模型在多领域、多特征数据集上的性能进行系统性的分析，从而为时间序列预测领域的研究和实践提供更加可靠的参考。

表 2：FoundTS 与其他时间序列预测基准的比较。

FoundTS 测评框架

FoundTS 提供了一个标准化的评估流程，包括数据（data）、模型（models）和评估（evaluation）三个核心模块，如图1所示。

图 1：FoundTS 架构。

数据模块涵盖了来自10个不同领域的时间序列数据集（Stock, Health, Energy, Electricity, Environment, Traffic, Nature, Banking, Web, Economics），这些数据集具有多种特征（Seasonality, Trend, Stationarity, Transition, Shifting, Correlation, Non-Gaussianity），为时间序列预测提供了全面的数据支持。
模型模块将多个具有不同架构类型的时间序列预测模型分为三类：
- 基于多领域时间序列数据的预训练模型，论文从重建、自回归、直接预测和混合预测四个角度介绍了这些模型；
- 基于大规模语言模型的预训练模型，通过参数高效的微调策略或精心设计的prompt，充分利用LLMs强大的表征能力和序列建模能力，捕捉时间序列数据中的复杂模式。
- 特定模型，这些模型在特定数据集上进行训练和推理，包括于CNN的模型、基于Transformer的模型、基于MLP的模型等。
评估模块提供了一个全面的测评场景、可扩展的流程和统一的评估环境：
- 包含zero-shot、few-shot 和 full-shot的测评场景，全面探索了时间序列预测基础模型在不同测试场景下的性能。
- 支持灵活的选择回看窗口、预测窗口、数据划分与加载、采样策略，一致的实验设置更能确保测试结果的公平性和可靠性。
- 提供多种评估指标，如平均绝对误差（MAE）和均方误差（MSE）等，可以从不同角度对时间序列预测基础模型进行详尽剖析。

实验

LLM

Ocean Significant Wave Height Estimation with Spatio-temporally Aware Large Language Models August 1, 2024 less than 1 minute read

本文介绍决策智能实验室和河口海岸国重合作的AI4Ocean的工作——海洋有效波高估计。

作者： 李哲，徐榕荟，胡吉林，彭忠，卢玺，郭晨娟，杨彬

关键词： 海洋有效波高预测，大语言模型，提示微调

摘要： 有效波高（SWH）是海洋科学中的一个重要指标，可以显著反应海洋波浪变化，对全海域SWH进行准确估算是至关重要的。传统数值模型在处理SWH估算任务中虽然具备成熟理论基础，但存在计算效率低下和难以进一步提高的问题。虽然，机器学习技术为解决上述问题提供新的可能性，但由于有限的观测技术和高昂的观测成本，实际观测到的海洋数据的严重稀缺，限制了机器学习模型的潜力。因此，我们提出了一个海洋SWH估算框架（Orca）。具体来说，Orca通过所设计的提示模板实现LLM在SWH估算任务上的迁移，使用一种新的时空感知编码模块增强了传统大语言模型（LLM）的时空推理能力。最终通过大量实验证明了Orca在SWH估算中取得了SOAT且高效的性能。

1. 引言

有效波高（Significant Wave Height, SWH）是海洋科学中的一个重要指标，反映了海洋活动的状态。异常波浪会对人类社会和自然环境造成严重破坏，包括生产损失、人员伤亡和生态损害等。因此对海洋SWH的准确估算关系到各类海上活动的安全，如海上导航、渔业运输和海洋能源开发等。

目前SWH估算的方法主要分为两类：传统的数值模型方法和基于机器学习的方法。数值模型基于物理学理论构建，通过利用观测数据推演海洋波浪的所有变化实现对全海域SWH的估算。经过多年的研究积累，数值模型已经具备坚实的理论基础和准确性。但对海洋波浪变化的所有可能性的推演往往需要大量计算资源，且难以适应新的影响因素，模型性能过于依赖物理理论。因此，基于机器学习的方法已经成为一种很有前途的替代方法，在SWH估算中提供了更好的准确性和更少的计算时间。然而，同时也面临着两个主要的挑战：一方面，实际观测的SWH数据过于稀疏。由于观测技术、观测环境以及观测成本的限制，海洋中实际部署的观测浮标非常稀少，如图1显示了墨西哥湾浮标的分布。这种稀缺性阻碍了基于机器学习的方法的发展。另一方面，波浪的产生是不同方向多种力的相互作用，因此波的变化具有很强的时空相关性，但目前基于机器学习的方法未能捕捉到如此复杂的关系。

图1：墨西哥湾的浮标分布。浮标所在的网格为红色的

为了解决上述两个挑战，我们提出了一个海洋SWH估算框架——Orca。具体来说，首先，由于大型语言模型（Large Language Model, LLM）在不同领域小样本场景下展现出了强大的泛化能力，我们以LLM作为模型主干，通过特定的提示模板和嵌入模块实现LLM的迁移，解决SWH估算中的数据稀疏性问题。其次，为了增强LLM的时空推理能力，我们将基于浮标的数据分割成重叠的补丁，通过一种新的时空编码模块捕捉海洋波浪的时空信息。同时，我们通过正则化项增加数值模型的物理知识对模型估算的约束。Orca整合了数值模型和机器学习模型的优点，弥补了LLM时空推理能力的不足，为海洋SWH估算提供新的方向。

综上所述，我们在本文中做出以下贡献：

Orca是第一个将LLM引入海洋SWH估算的模型。
我们设计了一个特定的提示模板和提示嵌入模块，通过有限数据对LLM进行微调，解决了数据稀疏问题。
我们提出了一种新的时空感知编码模块，补足了LLM的时空推理能力。
进行了大量的实验，证明了Orca的计算效率和准确性。

2. 定义

有效波高（SWH）： 在给定区域的一组波中，最高1/3波浪的平均高度。
基于浮标的数据： $M$个固定在不同位置的浮标在$T$个连续时间间隔中收集到的$F$种观测变量序列，记作$\mathbf{X} \in \mathbb{R}^{F \times M \times T}$。
基于网格的有效波高（GSWH）： $T$个连续时间间隔内每个网格区域内的平均SWH，记作$\mathbf{Y}\in \mathbb{R}^{K \times J \times T}$，其中$K$和$J$分别表示行数和列数。
问题定义 给定在$T$个连续时间间隔的基于浮标的数据X，估算对应时间的GSWH值$Y$。

3. 方法

Ocean

Ocean Significant Wave Height Estimation with Spatio-temporally Aware Large Language Models August 1, 2024 less than 1 minute read

本文介绍决策智能实验室和河口海岸国重合作的AI4Ocean的工作——海洋有效波高估计。

作者： 李哲，徐榕荟，胡吉林，彭忠，卢玺，郭晨娟，杨彬

关键词： 海洋有效波高预测，大语言模型，提示微调

摘要： 有效波高（SWH）是海洋科学中的一个重要指标，可以显著反应海洋波浪变化，对全海域SWH进行准确估算是至关重要的。传统数值模型在处理SWH估算任务中虽然具备成熟理论基础，但存在计算效率低下和难以进一步提高的问题。虽然，机器学习技术为解决上述问题提供新的可能性，但由于有限的观测技术和高昂的观测成本，实际观测到的海洋数据的严重稀缺，限制了机器学习模型的潜力。因此，我们提出了一个海洋SWH估算框架（Orca）。具体来说，Orca通过所设计的提示模板实现LLM在SWH估算任务上的迁移，使用一种新的时空感知编码模块增强了传统大语言模型（LLM）的时空推理能力。最终通过大量实验证明了Orca在SWH估算中取得了SOAT且高效的性能。

1. 引言

有效波高（Significant Wave Height, SWH）是海洋科学中的一个重要指标，反映了海洋活动的状态。异常波浪会对人类社会和自然环境造成严重破坏，包括生产损失、人员伤亡和生态损害等。因此对海洋SWH的准确估算关系到各类海上活动的安全，如海上导航、渔业运输和海洋能源开发等。

目前SWH估算的方法主要分为两类：传统的数值模型方法和基于机器学习的方法。数值模型基于物理学理论构建，通过利用观测数据推演海洋波浪的所有变化实现对全海域SWH的估算。经过多年的研究积累，数值模型已经具备坚实的理论基础和准确性。但对海洋波浪变化的所有可能性的推演往往需要大量计算资源，且难以适应新的影响因素，模型性能过于依赖物理理论。因此，基于机器学习的方法已经成为一种很有前途的替代方法，在SWH估算中提供了更好的准确性和更少的计算时间。然而，同时也面临着两个主要的挑战：一方面，实际观测的SWH数据过于稀疏。由于观测技术、观测环境以及观测成本的限制，海洋中实际部署的观测浮标非常稀少，如图1显示了墨西哥湾浮标的分布。这种稀缺性阻碍了基于机器学习的方法的发展。另一方面，波浪的产生是不同方向多种力的相互作用，因此波的变化具有很强的时空相关性，但目前基于机器学习的方法未能捕捉到如此复杂的关系。

图1：墨西哥湾的浮标分布。浮标所在的网格为红色的

为了解决上述两个挑战，我们提出了一个海洋SWH估算框架——Orca。具体来说，首先，由于大型语言模型（Large Language Model, LLM）在不同领域小样本场景下展现出了强大的泛化能力，我们以LLM作为模型主干，通过特定的提示模板和嵌入模块实现LLM的迁移，解决SWH估算中的数据稀疏性问题。其次，为了增强LLM的时空推理能力，我们将基于浮标的数据分割成重叠的补丁，通过一种新的时空编码模块捕捉海洋波浪的时空信息。同时，我们通过正则化项增加数值模型的物理知识对模型估算的约束。Orca整合了数值模型和机器学习模型的优点，弥补了LLM时空推理能力的不足，为海洋SWH估算提供新的方向。

综上所述，我们在本文中做出以下贡献：

Orca是第一个将LLM引入海洋SWH估算的模型。
我们设计了一个特定的提示模板和提示嵌入模块，通过有限数据对LLM进行微调，解决了数据稀疏问题。
我们提出了一种新的时空感知编码模块，补足了LLM的时空推理能力。
进行了大量的实验，证明了Orca的计算效率和准确性。

2. 定义

有效波高（SWH）： 在给定区域的一组波中，最高1/3波浪的平均高度。
基于浮标的数据： $M$个固定在不同位置的浮标在$T$个连续时间间隔中收集到的$F$种观测变量序列，记作$\mathbf{X} \in \mathbb{R}^{F \times M \times T}$。
基于网格的有效波高（GSWH）： $T$个连续时间间隔内每个网格区域内的平均SWH，记作$\mathbf{Y}\in \mathbb{R}^{K \times J \times T}$，其中$K$和$J$分别表示行数和列数。
问题定义 给定在$T$个连续时间间隔的基于浮标的数据X，估算对应时间的GSWH值$Y$。

3. 方法

Time Series Forecasting

TSFM-Bench: A Comprehensive and Unified Benchmark of Foundation Models for Time Series Forecasting June 8, 2025 less than 1 minute read

本文旨在介绍一项关于时间序列预测基础模型的benchmark研究。为了在多领域、多特征数据集上对多种时间序列预测基础模型进行全面统一的测评，华东师范大学联合丹麦奥尔堡大学开发了FoundTS，这一框架专门用于时间序列预测基础模型的系统测评。论文基于统一的评测结果，分析了现有时间序列预测基础模型的优势与不足，并提出了切实可行的改进方向，以推动基础模型性能的进一步提升。

论文地址： http://arxiv.org/abs/2410.11802

时间序列预测（Time Series Forecasting, TSF）是指利用历史观测数据来预测数据未来数据趋势，对于金融分析、气象预测、能源管理等多个领域具有至关重要的作用。

背景

近年来，专门针对特定领域数据集进行训练的模型（Specific models）在预测精度和推理速度上取得了显著提升。然而，当这些模型遇到新的领域或数据时，其泛化能力往往受到限制，表现并不理想。与此相比，在多领域时间序列数据或大规模语言数据集上进行预训练的基础模型（Foundation models）为提高时间序列预测模型的泛化能力提供了新的研究路径，但对这类模型的理解和研究目前仍显不足，主要原因有以下三点：

现有时间序列预测基础模型的实验设置缺乏一致性，如表1所示，这导致基于当前结果很难对不同基础模型的性能进行公正且一致的比较；
当前主流的时间序列预测的测评基准主要集中在特定模型上，很少关注基础模型；
现有的涉及基础模型的测试基准多停留在定性分析或单一场景的评估上，缺乏对模型在不同场景下性能的综合定量分析。

表 1：不同时间序列预测基础模型实验设置比较。

为了应对上述挑战，这篇论文提出了一个新的测评基准——FoundTS，旨在为时间序列预测基础模型提供一个全面统一的测评平台。通过FoundTS，能够对不同模型在多领域、多特征数据集上的性能进行系统性的分析，从而为时间序列预测领域的研究和实践提供更加可靠的参考。

表 2：FoundTS 与其他时间序列预测基准的比较。

FoundTS 测评框架

FoundTS 提供了一个标准化的评估流程，包括数据（data）、模型（models）和评估（evaluation）三个核心模块，如图1所示。

图 1：FoundTS 架构。

数据模块涵盖了来自10个不同领域的时间序列数据集（Stock, Health, Energy, Electricity, Environment, Traffic, Nature, Banking, Web, Economics），这些数据集具有多种特征（Seasonality, Trend, Stationarity, Transition, Shifting, Correlation, Non-Gaussianity），为时间序列预测提供了全面的数据支持。
模型模块将多个具有不同架构类型的时间序列预测模型分为三类：
- 基于多领域时间序列数据的预训练模型，论文从重建、自回归、直接预测和混合预测四个角度介绍了这些模型；
- 基于大规模语言模型的预训练模型，通过参数高效的微调策略或精心设计的prompt，充分利用LLMs强大的表征能力和序列建模能力，捕捉时间序列数据中的复杂模式。
- 特定模型，这些模型在特定数据集上进行训练和推理，包括于CNN的模型、基于Transformer的模型、基于MLP的模型等。
评估模块提供了一个全面的测评场景、可扩展的流程和统一的评估环境：
- 包含zero-shot、few-shot 和 full-shot的测评场景，全面探索了时间序列预测基础模型在不同测试场景下的性能。
- 支持灵活的选择回看窗口、预测窗口、数据划分与加载、采样策略，一致的实验设置更能确保测试结果的公平性和可靠性。
- 提供多种评估指标，如平均绝对误差（MAE）和均方误差（MSE）等，可以从不同角度对时间序列预测基础模型进行详尽剖析。

实验

Wave Height

Ocean Significant Wave Height Estimation with Spatio-temporally Aware Large Language Models August 1, 2024 less than 1 minute read

本文介绍决策智能实验室和河口海岸国重合作的AI4Ocean的工作——海洋有效波高估计。

作者： 李哲，徐榕荟，胡吉林，彭忠，卢玺，郭晨娟，杨彬

关键词： 海洋有效波高预测，大语言模型，提示微调

摘要： 有效波高（SWH）是海洋科学中的一个重要指标，可以显著反应海洋波浪变化，对全海域SWH进行准确估算是至关重要的。传统数值模型在处理SWH估算任务中虽然具备成熟理论基础，但存在计算效率低下和难以进一步提高的问题。虽然，机器学习技术为解决上述问题提供新的可能性，但由于有限的观测技术和高昂的观测成本，实际观测到的海洋数据的严重稀缺，限制了机器学习模型的潜力。因此，我们提出了一个海洋SWH估算框架（Orca）。具体来说，Orca通过所设计的提示模板实现LLM在SWH估算任务上的迁移，使用一种新的时空感知编码模块增强了传统大语言模型（LLM）的时空推理能力。最终通过大量实验证明了Orca在SWH估算中取得了SOAT且高效的性能。

1. 引言

有效波高（Significant Wave Height, SWH）是海洋科学中的一个重要指标，反映了海洋活动的状态。异常波浪会对人类社会和自然环境造成严重破坏，包括生产损失、人员伤亡和生态损害等。因此对海洋SWH的准确估算关系到各类海上活动的安全，如海上导航、渔业运输和海洋能源开发等。

目前SWH估算的方法主要分为两类：传统的数值模型方法和基于机器学习的方法。数值模型基于物理学理论构建，通过利用观测数据推演海洋波浪的所有变化实现对全海域SWH的估算。经过多年的研究积累，数值模型已经具备坚实的理论基础和准确性。但对海洋波浪变化的所有可能性的推演往往需要大量计算资源，且难以适应新的影响因素，模型性能过于依赖物理理论。因此，基于机器学习的方法已经成为一种很有前途的替代方法，在SWH估算中提供了更好的准确性和更少的计算时间。然而，同时也面临着两个主要的挑战：一方面，实际观测的SWH数据过于稀疏。由于观测技术、观测环境以及观测成本的限制，海洋中实际部署的观测浮标非常稀少，如图1显示了墨西哥湾浮标的分布。这种稀缺性阻碍了基于机器学习的方法的发展。另一方面，波浪的产生是不同方向多种力的相互作用，因此波的变化具有很强的时空相关性，但目前基于机器学习的方法未能捕捉到如此复杂的关系。

图1：墨西哥湾的浮标分布。浮标所在的网格为红色的

为了解决上述两个挑战，我们提出了一个海洋SWH估算框架——Orca。具体来说，首先，由于大型语言模型（Large Language Model, LLM）在不同领域小样本场景下展现出了强大的泛化能力，我们以LLM作为模型主干，通过特定的提示模板和嵌入模块实现LLM的迁移，解决SWH估算中的数据稀疏性问题。其次，为了增强LLM的时空推理能力，我们将基于浮标的数据分割成重叠的补丁，通过一种新的时空编码模块捕捉海洋波浪的时空信息。同时，我们通过正则化项增加数值模型的物理知识对模型估算的约束。Orca整合了数值模型和机器学习模型的优点，弥补了LLM时空推理能力的不足，为海洋SWH估算提供新的方向。

综上所述，我们在本文中做出以下贡献：

Orca是第一个将LLM引入海洋SWH估算的模型。
我们设计了一个特定的提示模板和提示嵌入模块，通过有限数据对LLM进行微调，解决了数据稀疏问题。
我们提出了一种新的时空感知编码模块，补足了LLM的时空推理能力。
进行了大量的实验，证明了Orca的计算效率和准确性。

2. 定义

有效波高（SWH）： 在给定区域的一组波中，最高1/3波浪的平均高度。
基于浮标的数据： $M$个固定在不同位置的浮标在$T$个连续时间间隔中收集到的$F$种观测变量序列，记作$\mathbf{X} \in \mathbb{R}^{F \times M \times T}$。
基于网格的有效波高（GSWH）： $T$个连续时间间隔内每个网格区域内的平均SWH，记作$\mathbf{Y}\in \mathbb{R}^{K \times J \times T}$，其中$K$和$J$分别表示行数和列数。
问题定义 给定在$T$个连续时间间隔的基于浮标的数据X，估算对应时间的GSWH值$Y$。

3. 方法