1. データセット

本ページは、デジタル台風プロジェクトのデータセットやソフトウェアを公開します。データセットは機械学習に有用なだけでなく、気象学的な研究における定量的な分析にも有用です。

データセット

1時間ごとの気象衛星赤外チャネル画像から作成した台風中心画像のデータセットです。1978年以来の歴代の「ひまわり」気象衛星画像のデータを輝度温度に変換し、異なる衛星のセンサで観測した観測値を補正しているため、40年以上にわたる一様な時空間データセットとして活用できます。

バージョン2 (V2)

2024年11月26日公開。現在の最新版です。なおWPデータセットは、バージョン1から完全に再作成されましたので、バージョン1を消去した上でバージョン2をダウンロードしてください。

  1. Northern Hemisphere: Western Pacific (WP) Dataset: 1978-2023 - 56GB
  2. Southern Hemisphere: Around Australia (AU) Dataset: 1979-2024 - 21GB

バージョン2については、以下の論文で説明しています。

Asanobu Kitamoto, Erwan Dzik, Gaspar Faure, "Machine Learning for the Digital Typhoon Dataset: Extensions to Multiple Basins and New Developments in Representations and Tasks", arXiv:2411.16421, 2024.

バージョン1 (V1)

2023年11月3日公開。なお、このバージョンは現在は利用に適さないため、将来は消去する可能性があります。

  1. Western North Pacific Dataset(西太平洋データセット):1978年〜2022年 - 54GB

バージョン1については、以下の論文で説明しています。

Asanobu Kitamoto, Jared Hwang, Bastien Vuillod, Lucas Gautier, Yingtao Tian, Tarin Clanuwat, "Digital Typhoon: Long-term Satellite Image Dataset for the Spatio-Temporal Modeling of Tropical Cyclones", NeurIPS 2023 Datasets and Benchmarks (Spotlight), 2023.

同じ内容の論文はarXivでも公開しています。

Digital Typhoon: Long-term Satellite Image Dataset for the Spatio-Temporal Modeling of Tropical Cyclones, arXiv:2311.02655.

その他の関連資料については、発表文献リストにて「絞り込み='typhoon'または'台風'」を設定して探して下さい。

ライセンス

『デジタル台風データセット』(国立情報学研究所)はクリエイティブ・コモンズ 表示 4.0 国際 ライセンス(CC BY)の下に提供されています。このデータセットを利用する際は、以下のようにデータセットを引用してください。

Digital Typhoon Dataset (National Institute of Informatics), doi:10.20783/DIAS.664

気象衛星ひまわり画像については、大部分は気象業務支援センター経由で購入したデータを利用していますが、一部については東京大学生産技術研究所で受信したデータを利用しています。詳しくは各種データの出典をご覧下さい。

ソフトウェア

デジタル台風データセットを機械学習に活用するためのソフトウェアを以下で提供します。

  1. kitamoto-lab/digital-typhoon @ GitHub
  2. pyphoon2

モデル

デジタル台風データセットを学習した深層学習モデルや関連するコードを以下で提供します。

  1. Kitamoto Lab @ Hugging Face

データリポジトリ

デジタル台風データセットは、DIAS (Data Integration and Analysis System)でも公開しています。DIASは地球環境データに関する分野データリポジトリであり、永続的識別子であるデータセットのDOI (doi:10.20783/DIAS.664) を付与できます。

  1. デジタル台風データセット

謝辞

デジタル台風データセットの開発には、多くの人々が関わりました。特に、以下に示す北本研究室のインターンシップ学生が、データセットに対する機械学習アルゴリズムの研究や、ソフトウェアライブラリの開発を進めました。

Danlan Chen, Lucas Rodes Guirao, Alexander Grishin, Clément Playout, Izabela Horvath, Jean-Paul Lam, Jared Hwang, Bastien Vuillod, Lucas Limos Gautier, Gaspar Faure, Erwan Dzik

また、デジタル台風データセットを扱うためのライブラリpyphoon2は、最初のバージョンのライブラリpyphoon(主要開発者:Lucas Rodes Guirao)に触発され、新たなタスクやデータフォーマットに対応できるように開発したものです。