グランドチャレンジ

ABCIグランドチャレンジ2019採択課題について

ABCIグランドチャレンジ2019で採択された課題は次の通りです。

  クラス 所属機関名 代表者名 課題名 研究の概要
第3回 Large 富士通研究所 大石裕介 想定外を想定する津波即時予測 AI の構築 2019-3-L-1
第3回 Large 東京工業大学 横田理央 プラズマの挙動予測のための再帰型ニューラルネットワークの大規模並列深層学習 2019-3-L-2
第3回 Large 東京工業大学 横田理央 巨大な言語モデルの分散並列深層学習 2019-3-L-3
第2回 Large 東京工業大学 横田理央 KFACの計算時間をSGDとほぼ同等に抑える事によるImageNet学習のさらなる記録更新 2019-2-L-1
第2回 Large ソニー 影山雄一 ABCIアーキテクチャに最適な分散深層学習向けデータ同期通信手法、および、大きなモデルの学習におけるパフォーマンス課題の明確化 2019-2-L-2
第2回 Medium 東京工業大学 秋山泰 超高速タンパク質間相互作用予測システムMEGADOCK 5.0による細胞内タンパク質間相互作用の網羅的解明 2019-2-M-1
第1回 Large 富士通研究所 田原司睦 大規模ミニバッチによる分散並列深層学習 2019-1-L-1
第1回 Large ソニー 影山雄一 ABCIアーキテクチャに最適な分散深層学習向けデータ同期通信手法 2019-1-L-2
第1回 Large 産総研 陳鵬 A Scalable Framework for Instant High-resolution Image Reconstruction 2019-1-L-3
第1回 Medium 東京工業大学 横田理央 KFACのChainerX実装を用いたImageNetの1分以内の学習 2019-1-M-1

研究の概要 (2019年度第3回)

課題名:想定外を想定する津波即時予測 AI の構築

研究概要:東日本大震災以降、津波対策技術は加速的に発展し、日本周辺には大規模なリアルタイム沖合津波観測網の配備が進んでいる。一方で、これらの観測を、南海トラフ巨大地震を始めとした今後の津波対策に活かすためには、観測データに基づき、沿岸域での津波災害を高精度かつ高速に予測する技術が求められている。また、東日本大震災のような想定外を回避するためには、過去の歴史史料や地質学的痕跡から想定される津波パターンにとらわれない予測が必要である。そこで本研究では、ランダム生成された 150 万件の津波パターンを学習した深層学習による津波の予測器を構築する。これは、現行のデータベース検索型の津波予報で用いられている 10 万件のデータ量を上回る量で、人間にとって想定外の事象であっても想定可能となることが期待できる.

課題名:プラズマの挙動予測のための再帰型ニューラルネットワークの大規模並列深層学習

研究概要:既存のプラズマシミュレーションには、演繹的な偏微分方程式による解法が用いられてきたが、ビッグデータを用いた帰納的なアプローチの方が巨大なプラズマ実験装置内での反応停止状態の予測性能が高いことを2018年度第3回グランドチャレンジで示し、その結果はNatureに掲載された。 しかし、反応停止予測をできる時間スケールが1ms先までであり、5msという実用的な目標値に達していなかった。今回のグランドチャレンジでは前回と比べて10倍程度大きな計測データを用いて学習を行うことで、実用化に必要な時間スケールでの予測を目指す。さらに、分散並列化、半精度演算に関する機能を増強し、学習精度も大幅に向上したFRNNを用いることでABCIの全ノードでさらなる精度向上を目指す。また、本課題で用いるFRNNコードはTitanやPiz Daintなどの世界最大級のGPUスパコンでの共通ベンチマークとして選定されており、ABCI上での性能データがそこに加わることは高性能計算分野の国際競争上意義がある.

課題名:巨大な言語モデルの分散並列深層学習

研究概要:2019年にはBERTなどの巨大なTransformerを用いた言語モデルの学習が盛んになってきている。申請者らはこれまでImageNet、ResNet-50を用いた学習で深層学習分野ではあまり用いられていないKFACを採用することで、通常は90epochかかる学習を30epochにまで低減できることを示した。しかし、KFACのような強力な最適化手法はImageNet規模のデータセットでは過学習を抑制するために様々な正則化を行う必要があり、そのチューニングに多くの時間を要した。一方、今回のような巨大な言語モデルの学習では、数百GPUで数週間かけても数epochしか学習できないような膨大なデータを扱うため、KFACの収束性がより優位に働くことが期待される。また、過去のグランドチャレンジで培ってきた分散並列深層学習の知見を活かすことで、巨大な言語モデルの学習においても数千GPUを用いた計算を高い並列化効率で実現できる.

研究の概要 (2019年度第2回)

課題名:KFACの計算時間をSGDとほぼ同等に抑える事によるImageNet学習のさらなる記録更新

研究概要:SGDベースのImageNetの学習には90epochかかるがKFACを用いることで同等の精度まで30epochで学習できることが過去のABCIグランドチャレンジで申請者らによって確認されている.ただし,これまではKFACのステップあたりの計算時間がSGDの3倍程度かかっていたため正味の学習時間で優位性は認められなかった.しかし,前回のグランドチャレンジにおいてKFACのステップあたりの計算時間をSGDとほぼ同等にまで低減することに成功した.また,ChainerからChainerXに実装を切り替えることで,MXNetに限りなく近い計算時間でforward, backwardの部分を計算することができるようになった.しかし,このせいでKFACのオーバーヘッドが再び相対的に大きくなり,前回のグランドチャレンジでは2.5分という本来の目標よりも遅い記録となった.今回のグランドチャレンジでは,KFACのオーバーヘッドをさらに縮めるため,Kronecker因子の対角化と畳み込み層のKronecker因子分解の手法を根本的に見直し,再びステップあたりの計算時間をSGDとほぼ同等まで低減することで,今度こそ1分以内の学習を目指す.

課題名:ABCIアーキテクチャに最適な分散深層学習向けデータ同期通信手法、および、大きなモデルの学習におけるパフォーマンス課題の明確化

研究概要:ソニー株式会社が開発したNeural Network Libraries、及び産総研が構築するAI橋渡しクラウド(以降、ABCIという)の4000基超のGPUを利用して、ImageNet/ResNet-50の深層学習のパフォーマンス最適化を目指す。これを実現する上で主な課題となる、Gradientデータの同期レイテンシの削減を目的として、ABCIのアーキテクチャに最適なGradientデータ同期通信手法(MPI AllReduce等のアルゴリズム)を研究開発する。さらに、モデルパラレルの実用化に向けた解題の明確化も行う。

課題名:超高速タンパク質間相互作用予測システムMEGADOCK 5.0による細胞内タンパク質間相互作用の網羅的解明

研究概要: タンパク質間相互作用は生命維持や疾病に深く関係する生命現象であり、細胞内のタンパク質間相互作用の網羅的な理解は、新薬開発や疾病メカニズムの解明に重要である。本研究では、超並列計算によるAI創薬支援の一貫として、網羅的なタンパク質間相互作用予測計算を実現できる新規システムMEGADOCK 5.0を活用し、ヒト細胞内タンパク質間相互作用の網羅的解明に向けた実証評価実験を行う。 MEGADOCKは東京工業大学秋山研究室にて開発されたマルチGPU・マルチノード計算が可能なタンパク質間相互作用予測システムである。現在までにMEGADOCK 3.0による「京」上の全系88,128ノード計算 (Matsuzaki et al. SCBM 2013) や、MEGADOCK 4.0によるTSUBAME 2.5上の420ノード・1,260 GPU並列計算 (Ohue et al. Bioinformatics 2014) 等の実績がある。本グランドチャレンジ課題では、ABCIが搭載する最新鋭のV100 GPUを大規模運用することにより500万ペア級の計算を目指しており、ABCI級の並列計算環境を想定して、並列化粒度の改良や新たなタスクスケジューリング方式を導入したMEGADOCK 5.0を準備した。

研究の概要 (2019年度第1回)

課題名:大規模ミニバッチによる分散並列深層学習

研究概要:GPUを多数用いたデータ並列による学習には、勾配の集約処理による速度低下と、大規模ミニバッチによる学習精度の低下という、二つの課題がある。我々はこれらの課題に挑戦し、産総研ABCIの2,048 GPUを用いたResNet-50の学習に成功、2019年3月時点で世界一となる74.8秒を達成している。本研究では、2,048を超えるGPUを利用することで、世界で初めて学習時間1分を切り、ResNet-50の高速化競争に一区切りつけることを目指す。

課題名:ABCIアーキテクチャに最適な分散深層学習向けデータ同期通信手法

研究概要:ソニー株式会社が開発したNeural Network Libraries、及び産総研が構築するAI橋渡しクラウド(以降、ABCIという)の4000基超のGPUを利用して、ImageNet/ResNet-50の深層学習のパフォーマンス最適化を目指す。これを実現する上で主な課題となる、Gradientデータの同期レイテンシの削減を目的として、ABCIのアーキテクチャに最適なGradientデータ同期通信手法(MPI AllReduce等のアルゴリズム)を研究開発する。

課題名:A Scalable Framework for Instant High-resolution Image Reconstruction

研究概要:A wide class of applications necessitate the representation of the real-world by 2D and 3D images. Due to the rapid development of semiconductor manufacture, 2D images are very easy to obtain by a variety of image sensors, e.g. optical sensor, FPD (Flat Panel Detector, X-ray imaging sensor). Hence, 2D images are commonly used by the Deep Neural Network. However, it remains to be a non-trivial task to obtain high-resolution 3D image in some systems, e.g. CT (Computed Tomography), and MRI (Magnetic Resonance Imaging). One of main challenges is the requirement of massive compute power. Our motivation is to efficiently reconstruct 3D images, and hence be able to apply Deep Learning on 3D images. In this work, we employ ABCI to speed up the computation for generating the high-resolution 3D images, i.e. 〖2048〗^3, 〖4096〗^3, 〖8192〗^3. High-resolution CT, that builds on image reconstruction algorithms, is used in a wide variety of fields, e.g. medical diagnosis, non-invasive inspection, and reverse engineering. In the past decades, the size of a single three-dimensional (3D) volume generated by CT systems has increased from hundreds of megabytes (the typical sizes of a volume are 〖256〗^3, 〖512〗^3) to several gigabytes (i.e. 〖2048〗^3, 〖4096〗^3). The increased demand for rapid tomography reconstruction and the associated high computational cost attracted heavy attention and efforts from the HPC community. In this work, we propose a novel back-projection algorithm that reduces the projection computation cost. We also propose an efficient implementation that takes advantage of the heterogeneity of GPU-accelerated systems by overlapping the filtering and back-projection stages on CPUs and GPUs, respectively. Finally, we propose a distributed framework for high-resolution image reconstruction on state-of-the-art GPU-accelerated supercomputers. This research meets the challenges of both Big Data (i.e. I/O bottleneck), and is also a prerequisite for investigating the use of DL with high-resolution 3D images.

課題名:KFACのChainerX実装を用いたImageNetの1分以内の学習

研究概要:本課題では分散並列深層学習ベンチマークであるImageNetを4096GPUを用いて1分以内で学習することで世界新記録を達成することを目指す.SGDベースのImageNetの学習には90epochかかるがKFACを用いることで同等の精度まで30epochで学習できることが過去のABCIグランドチャレンジで申請者らによって確認されている.ただし,これまではKFACのステップあたりの計算時間がSGDの3倍程度かかっていたため正味の学習時間で優位性は認められなかった.そこで,申請者らはKFACがSGDよりも余分に計算している部分を6%程度に低減しながらも精度を全く損なわない手法を考案した.これはフィッシャー行列のクロネッカー因子の一部対角化とフィッシャー行列の更新頻度を動的に組み合わせたもので,これによりKFACとSGDのステップあたりの計算時間はほぼ同程度になった.さらに,今回はChainerからChainerXに実装を切り替え,テンソルの格納形式を切り替えることでforwardとbackward自体の計算時間をMXNetに匹敵する程度に低減する.予想では4096GPUを用いたImageNetの学習で1分を切る記録が出せる予定である.