グランドチャレンジ

ABCIグランドチャレンジ2022採択課題について

ABCIグランドチャレンジ2022で採択された課題は次の通りです。

  クラス 所属機関名 代表者名 課題名 研究の概要
第3回 A ソニーグループ株式会社 早川顕生 学習済みText to Image拡散モデルを用いた動画生成タスクへのfinetuning 2022-3-A-2
第3回 A 早稲田大学 河原大輔 長い系列に対応した日本語大規模汎用言語モデルの構築 2022-3-A-1
第2回 A エヌビディア合同会社 森野慎也 GPUを用いた大規模量子回路シミュレーション 2022-2-A-1
第2回 V-Large 東京工業大学 横田理央 億単位までスケーラブルな人工画像データセットの構築 2022-2-L-1
第1回 V-Large 東京工業大学 横田理央 ABCI全系を用いた億単位の人工画像の事前学習 2022-1-L-1
第1回 A LINE株式会社 中町礼文 大規模日本語BERT(~6.7Bパラメーター)によるBERTベース(110Mパラメーター)への蒸留 2022-1-A-1

研究の概要 (2022年度第3回)

課題名:学習済みText to Image拡散モデルを用いた動画生成タスクへのfinetuning

研究概要:学習済みtext-to-image Diffusion Model (DM)をベースとして、テキストに沿った動画(または紙芝居)が生成可能なモデルに拡張する。2022年9月に”Make A Video: Text-to-Video Generation without Text-Video Data”や”Imagen Video: High Definition Video Generation with Diffusion Models”が発表され、DMがtext-to-videoでSOTAとなる性能を達成したが、これらの手法は複数のDMを大規模な動画データで学習する必要があり、学習に掛かるコストが極めて大きい。本研究課題では、ABCIの大規模インフラを活用して、短期間で大量のGPUを利用することで、学習済みtext-to-imageをfinetuneし、動画生成に拡張することに挑戦する。

課題名:長い系列に対応した日本語大規模汎用言語モデルの構築

研究概要:近年、BERTを代表とした大規模汎用言語モデルはさまざまな言語理解タスクで高い性能を実現し、社会の基盤になりつつある。英語を中心に多くの汎用言語モデルが公開され、その中には長い系列に対応したモデルが含まれており、省略・照応解析、質問応答などで利用され、高い精度を達成している。一方、日本語では長い系列に対応したモデルはこれまで構築、公開されていない。本研究では、ABCIの大規模計算ノードを活用し、長い系列(2,048トークン)に対応した日本語大規模汎用言語モデル(パラメータ数1.3B)の構築を目指す。構築されたモデルを公開することにより、日本語自然言語処理の研究開発、さらには社会応用に貢献する。

研究の概要 (2022年度第2回)

課題名:GPUを用いた大規模量子回路シミュレーション

研究概要:量子コンピューターは、開発途上であり、量子アルゴリズムの開発や実機の開発・検証のためには、古典コンピューターによるシミュレーションは必須である。これまではCPU利用が主流であったが、最近はGPUを利用することにより、おおむね一桁の性能向上が成し遂げられている。ステートベクトル型の量子回路シミュレーションは、量子状態をメモリ上に展開するため、必要なメモリ量が量子ビット数に対して指数関数的に増加することが知られている。量子アルゴリズム開発や実機の検証のためには、より多くの量子ビットを扱える大規模並列可能なシミュレーターが必要となる。かつ、GPUの高速性を活かした大規模シミュレーションは、今後ますます重要度が増していくと考えられる。そこで、NVIDIAが開発中のステートベクトル型の量子回路シミュレーターによる世界最大クラスの大規模実験を行い、シミュレーターの性能測定およびシミュレーションの精度検証を実施する。本シミュレーターは、ステートベクトルのデータ型としてComplex128とComplex64の二つの精度での実行が可能である。ABCIのAクラスを用いることで、それぞれ最大で40量子ビット、41量子ビットと世界最大クラスのシミュレーションが可能となり、社会的インパクトがある。また数値精度について、一般には必ずしもComplex128は必要ではなく、Complex64で十分であると言われている。しかし、この量子ビット規模においても成り立つかは自明ではなく、その検証は実用的にも学術的にも意義が大きい。

課題名:億単位までスケーラブルな人工画像データセットの構築

研究概要:近年、大規模なFoundation Modelを事前学習することで、言語・画像などのマルチモーダルな下流タスクにおいて既存手法を上回る性能が報告されている。ただし、このような事前学習には超大規模なデータセットが必要であり、特に画像データに関してはGoogleが最大規模の画像データセットJFTを非公開にしていることが障壁になっている。フラクタルなどの人工画像でこれを代替できれば、多くの研究者の参入障壁を下げることができ、さらなる分野の発展が期待できる。また、国内からこのようなデータセットを公開することで、AI分野における本国の国際競争力の源泉となることが期待される。申請者らは、2021年度の第2回ABCIグランドチャレンジにおいてImageNet-21kと同規模の人工画像データセットを用いた事前学習において、ImageNet-21kを上回る精度を達成した。本申請課題では、JFT-300M規模の人工画像データセットによる事前学習において、JFT-300Mを超える精度を達成する上で重要な課題をいくつか解決することを目指す。

研究の概要 (2022年度第1回)

課題名:ABCI全系を用いた億単位の人工画像の事前学習

研究概要:画像処理分野ではVision Transformerを始めとする大規模事前学習モデルが高い性能を達成している。ただし、Vision Transformerは少量のデータで学習した場合、ResNetなどの小規模なモデルよりも低い精度になることが分かっており、大規模なデータによる事前学習が高精度を得るための条件となっている。画像処理分野の大規模事前学習はJFT-300MやJFT-3Bなどの大規模画像データセットを専有しているGoogleの独壇場となっている。一方、Fractalなどの人工画像を用いた事前学習でもImageNetを用いた場合と同程度の効果があることが示されている。申請者らは、2021年度の第2回ABCIグランドチャレンジにおいて人工画像を用いてImageNetの10倍以上の大きさを画像数を有するImageNet-21kによる事前学習と同じ画像数の事前学習を行い、ImageNetのファインチューニング精度でImageNet-21kを超える精度を達成した。本申請課題では、これをさらに5倍の大きさに拡大し億単位の人工画像を用いたVision Transformerの学習を行うことでさらなる精度の向上を目指す。

課題名:大規模日本語BERT(~6.7Bパラメーター)によるBERTベース(110Mパラメーター)への蒸留

研究概要:ABCIの大規模なインフラを活用することで、大量なコーパス (1.5TB、700Mサンプル、400B tokens) に対して短期間で約6.7Bパラメーターの日本語BERTモデルの事前訓練を行う。その後、小規模のリソースでも稼働できるBERT base (110Mパラメーター) に蒸留し、スクラッチから訓練したBERT baseよりも高い性能が出ることを検証する。最後の蒸留したBERT baseモデルをオープンソースに公開することで、研究開発コミュニティに貢献していく。