1972年12月,在美国华盛顿特区举行的美国科学促进会年会上,麻省理工学院气象学教授埃德·洛伦兹发表了题为「巴西一只蝴蝶的煽动是否会在德克萨斯引发龙卷风?」的演讲,这贡献了「蝴蝶效应」这一术语。
在他1963年的一篇论文中,他发现在时间积分与数值天气预测模型里,即使微小的起始条件误差,也会在数值模型中迅速扩大,导致预测结果的不确定性迅速增加,这被称为混沌现象。
因此,天气预报的可靠性受到了限制,尤其是在极端天气事件的预测方面,比如飓风、热浪或洪水。
出于上述原因,目前的天气预报其实都是概率预报。
这些预报使用了一种叫做集合预报的方法,通过在初始条件中引入一些随机性,然后运行多个不同的模型来生成多种可能的结果。
通过对集合中的所有预报进行平均处理来减少误差增长,并且集合中的预报的变化量量化了天气条件的不确定性。
尽管有效,生成这些概率预报的计算成本很高。它们需要在大规模超级计算机上多次运行高度复杂的数值天气模型。
尤其是极端天气,通常需要更大的集合来评估。例如,为了预测发生概率为1%的事件的可能性,需要一个包含1万个成员的集合,且相对误差小于10%。
但准确和及时的天气预报,是人们日常生活所必需的。从准备一天的活动需要带什么出门,到面对危险天气的时候要提前做什么准备。
谷歌最新研究给天气预报带来了一个新的进展:Scalable Ensemble Envelope Diffusion Sampler(SEEDS)是一个生成式的AI模型,可以高效地生成规模化的天气预报集合,成本仅为传统基于物理的预测模型的一小部分。
这项技术为天气和气候科学开辟了新的机遇,它同时也代表了概率扩散模型在天气和气候预测中的首次应用。
生成式AI准确生成天气预报集合
在上述论文中,谷歌提出了可扩展的集合包络扩散采样器(SEEDS),这是一种用于天气预报集合生成的生成式人工智能技术。
SEEDS基于去噪扩散概率模型,这是一种由Google Research部分开创的最先进的生成式人工智能方法。
生成式人工智能以生成非常详细的图像和视频而闻名,这一特性对于生成与真实天气模式一致的集合预报特别有用。
SEEDS可以根据操作性数值天气预报系统中的一两个预报来生成大量的集合。
生成的集合在技能指标上与基于物理的集合相匹配或超过,比如均方根误差(RMSE)和连续排名概率评分(CRPS)等;不仅如此,还为预报分布的尾部(如±2σ和±3σ天气事件)分配了更准确的可能性。
传统物理方法和SEEDS的生成对比
最重要的是,与需要数小时计算时间的超级计算机相比,该模型的计算成本几乎可以忽略不计。在Google Cloud TPUv3-32实例上,其吞吐量为每3分钟256个集合成员(分辨率为2°),并且可以通过部署更多加速器轻松扩展到更高的吞吐量。
下图对比了SEEDS与操作性美国天气预报系统(全球集合预报系统,GEFS)在2022年欧洲热浪期间某个特定日期的预报结果。
其中A是真实观测的代理,(Ca-Ch)是SEEDS模拟出来的8个样本,而(Da-Dh)是来自GEFS的预报。虽然肉眼可能很难直接看出明显的区别,但SEEDS更能捕捉到交叉场和空间相关性,这会与真实的天气更加贴近。
这是因为SEEDS直接模拟了大气状态的联合分布,它实际上捕捉了大气状态的空间协方差和中对流层高度和平均海平面气压之间的相关性,这两者常被气象学家用于预报评估和验证。(一些专业的解释:平均海平面气压的梯度驱动着地表的风,而中对流层高度的梯度则产生了移动大尺度天气模式的高层风。)
更准确地覆盖极端事件
SEEDS集合能够从一两个种子预报中外推,展示了可能的天气状态的范围,对事件的统计覆盖更好。
也就是说,高度可扩展的生成方法能够创建非常大的集合,可以通过任何不同状态阈值设置的天气样本,来描述非常罕见的事件。
比如说下图展示了2022年7月14日当地时间1:00在里斯本附近发生的极端高温事件的2米温度和总柱水汽的联合分布。
对于每个图,谷歌研究团队使用SEEDS根据2个物理模型的种子预报,生成了16384个成员的集合,显示为绿色点。
正确天气事件来自ERA5,用星号表示。
用方块表示用于传统方法生成集合的预报,用三角形表示剩余的传统方法集合成员。
可以看到蓝色方块和黄色三角形根本不接近星号,也就是说,传统方式根本不可能提前观察到这种极端情况,其31个成员中没有一个预测到与观察到的那样温暖的近地表温度。
实际上,从高斯核密度估计中计算的事件概率低于1%,这意味着少于100个成员的集合不太可能包含与此事件一样极端的预报。
而SEEDS生成的绿色点,却可以提供更好的统计覆盖,基于它精准的生成能力和高效的生成速度。
天气预报新模式?
上述实验展示了一种混合预报系统,SEEDS利用基于物理模型计算出的少数几条天气轨迹来更有效地生成更多预报的扩散模型。
这种方法提供了一种替代当前操作性天气预报范式的方法。
同时,通过统计模拟器节省的计算资源可以用于提高基于物理模型的分辨率或更频繁地发布预报。
这或许是天气预报的未来新模式,也可能SEEDS仅代表了未来几年AI将加速操作性数值天气预报进展的众多方式之一。
但谷歌研究展现出来的是生成式人工智能在天气预报模拟和后处理中的实用性,对于准确量化未来气候的不确定性和气候风险评估,提供了一个新的方向。