グランドチャレンジ

ABCIグランドチャレンジ2018採択課題について

ABCIグランドチャレンジ2018で採択された課題は次の通りです。

  クラス 所属機関名 代表者名 課題名 研究の概要
第3回 Large 東京工業大学 横田理央 プラズマの挙動予測のための再帰型ニューラルネットワークの大規模並列深層学習 2018-3-L-1
第3回 Large ソニー 影山雄一 ABCIアーキテクチャに最適な分散深層学習向けデータ同期通信手法 2018-3-L-2
第3回 Large 東京工業大学 横田理央 学習時間の新記録達成を最優先事項とするKFAC法を用いたImageNet再々チャレンジ 2018-3-L-3
第2回 Large 東京工業大学 横田理央 チューニング済K-FAC法を用いたImageNet再チャレンジ 2018-2-L-1
第2回 Large ソニー 影山雄一 ABCIアーキテクチャに最適な分散深層学習向けデータ同期通信手法 2018-2-L-2
第1回 Large 富士通研究所 田原司睦 大規模ミニバッチによる分散並列深層学習 2018-1-L-1
第1回 Large ソニー 影山雄一 ABCIアーキテクチャに最適な分散深層学習向けデータ同期通信手法 2018-1-L-2
第1回 Large 東京工業大学 横田理央 K-FAC 法を用いた ImageNet の大規模並列学習 2018-1-L-3

研究の概要 (2018年度第3回)

課題名:プラズマの挙動予測のための再帰型ニューラルネットワークの大規模並列深層学習

研究概要:近年、機械学習とHPCの融合に対する期待が高まっているが、その中でも国際的に著名な例が、プリンストン大学で行われているプラズマシミュレーションと再帰型ニューラルネットを融合した研究である。多くの深層学習の実装例では数百GPUまでしか並列化効率が維持できないのに対し、本研究では既にオークリッジ国立研究所のTitan上で6000GPUまでのスケーラビリティを達成し、この成果は機械学習とHPCの融合に関する先端研究としてGTC2017で大きく取り上げられた。既存のプラズマシミュレーションには、第一原理的で決定論的な偏微分方程式による解法が用いられてきたが、ビッグデータを用いた統計的なアプローチの方が停止状態の予測性能が高いことが本研究の予備実験などから分かってきている。これは、現存するスパコンの演算性能ではPIC法などの解法の時空間解像度が十分に高くできないことに起因しており、深層学習の場合は現存するスパコンの演算性能でも十分な学習ができることを意味している。プラズマシミュレーションに深層学習を適用した例は本研究が初めてであり、計算規模の観点からも他に例のない研究であるといえる。

課題名:ABCIアーキテクチャに最適な分散深層学習向けデータ同期通信手法

研究概要:ソニー株式会社が開発したNeural Network Libraries、及び産総研が構築するAI橋渡しクラウド(以降、ABCIという)の4000基超のGPUを利用して、ImageNet/ResNet-50の深層学習のパフォーマンス最適化を目指す。これを実現する上で主な課題となる、Gradientデータの同期レイテンシの削減を目的として、ABCIのアーキテクチャに最適なGradientデータ同期通信手法(MPI AllReduce等のアルゴリズム)を研究開発する。

課題名:学習時間の新記録達成を最優先事項とするKFAC法を用いたImageNet再々チャレンジ

研究概要:本課題では分散並列深層学習ベンチマークであるImageNetを4096GPUを用いて2分以内で学習することで世界新記録を達成することを目指す。現在の記録にはGoogleのチームが1024TPUを用いて2.2分で達成したものがある。前回のABCIグランドチャレンジではKFACの精度を確保することに専念したため、計算時間を短縮するための工夫はほとんど行っていなかった。グランドチャレンジ中に、フィッシャー行列の対角化、フィッシャー行列の計算頻度の低下、fp16を用いた演算・通信などを行った場合でも学習精度が低下しないことを確認した。前回の実施ではこの他にも通信のオーバーラップ、冗長計算による通信削減、無駄なGPUへの転送の削減など、高性能計算分野では常識的に行われている簡単にできる工夫を全く行っていなかった。そのような工夫を用いていない現状でも1024GPUを用いて5分で学習ができるところまできており、Sonyが行っているようなバッチサイズを途中から増大させる方法とKFAC併用すれば2048GPUでも40epoch程度で収束されることができることが予想され、4096GPUでも60epoch程度で収束することが期待される。KFACのiterationあたりの計算時間がSGDとほぼ同程度になった現在では、この収束性の速さの分だけ良い記録ができることが予想される。

研究の概要 (2018年度第2回)

課題名:チューニング済K-FAC法を用いたImageNet再チャレンジ

研究概要:本課題では分散並列深層学習ベンチマークであるImageNetを4096GPUを用いて5分以内で学習することで世界新記録を達成することを目指す。現在の記録にはTencentのチームが2048GPUを用いて6.6分で達成したものがある。前回のABCIグランドチャレンジではK-FACを初めて大規模深層学習に適用したが、二つの問題に直面した。一つ目は、ハイパーパラメータ (HP) チューニングの不足によるテスト精度の低さである。SGDのHPが長い年月をかけてチューニングされてきたのに対してK-FACは新しい手法であり、HPを1からチューニングする必要がある。前回のグランドチャレンジからNVIDIAの全面協力により、K-FACのHPをチューニングすることに成功したため、今回はSGDに引けをとらないテスト精度を実現できる。二つ目は、NCCLの通信が1000GPUを超えた場合に極端に性能が低下することであった。これは、ノード間とノード内を分けてAllReduceをする手法により解決したため、今回は起きないと予想される。これらの改善により、理論値から推測すると4096GPUを用いた場合に5分以内に学習が収束すると予想される。このタイミングで、ABCIの4096GPUを用いて世界記録を打ち立てることは、昨今の国内外における人工知能ブームの中で、社会的に大きなインパクトを与えるものとなることが予想される。

課題名:ABCIアーキテクチャに最適な分散深層学習向けデータ同期通信手法

研究概要:ソニー株式会社が開発したNeural Network Libraries、及び産総研が構築するAI橋渡しクラウド(以降、ABCIという)の4000基超のGPUを利用して、ImageNet/ResNet-50の深層学習のパフォーマンス最適化を目指す。これを実現する上で主な課題となる、Gradientデータの同期レイテンシの削減を目的として、ABCIのアーキテクチャに最適なGradientデータ同期通信手法(MPI AllReduce等のアルゴリズム)を研究開発する。

研究の概要 (2018年度第1回)

課題名:大規模ミニバッチによる分散並列深層学習

研究概要:1 台の GPU で行うと 10 日程度を要する深層学習(ResNet-50 を利用)を、4,000 台強の GPU で高速化し、世界最速の学習 を実現する。最大限高速化を行うためには、サーバー間デー タ通信ボトルネック、学習データ供給ボトルネック、メモリ 初期化ボトルネックの 3 つのボトルネックを解消する必要 がある。 サーバー間データ通信ボトルネックはミニバッチあたりの 画像枚数を多くする事で実現可能だが、通常この枚数が 1,000 枚を大きく超えると、最終的に得られる予測精度が大 幅に悪化する。このために、巨大なミニバッチでも最終的な 精度がほぼ変わらないアルゴリズムを研究開発する。 学習データ供給ボトルネックは、学習が正しく進む範囲で データ移動が少なくなる方式を開発する。 この規模のクラスタではメモリ初期化ボトルネックも影響 が大きい。学習時間が 10 分を切る一方、初期化に数分かか ると予測している。初期化時のメモリ確保と初期値書き込 みを工夫することで、処理時間を縮める。

課題名:ABCIアーキテクチャに最適な分散深層学習向けデータ同期通信手法

研究概要:ソニー株式会社が開発した Neural Network Libraries、及 び産総研が構築する AI 橋渡しクラウド(以降、ABCI とい う)の4000基超のGPUを利用して、ImageNet/ResNet-50の 深層学習のパフォーマンス最適化を目指す。これを実現す る上で主な課題となる、Gradient データの同期レイテンシ の削減を目的として、ABCI のアーキテクチャに最適な Gradientデータ同期通信手法(MPI AllReduce等のアルゴ リズム)を研究開発する。

課題名:K-FAC 法を用いた ImageNet の大規模並列学習

研究概要:本課題では分散並列深層学習ベンチマークである ImageNet を 4096GPU を用いて 10 分以内で学習することで世界新記録を達成す ることを目指す。現在の記録には Preferred Networks のチームが 1024GPU を用いて 15 分で達成したものと、Berkeley のチームが 2048KNL をもちいて達成した 14 分のもの、Google が TPU を用いて 12 分で学習したものがある。深層学習の分散並列処理においてはバ ッチサイズを大きくすればするほど高い並列化効率が得られるが、大 きくしすぎると学習効率が低下する。本課題ではバッチサイズを大きく しても学効率が全く低下しない自然勾配法(NGD)を SGD の代わりに 用いる点で現在の記録保持者と比べて優れている。最終目標は ImageNet の学習を10分以内に終わらせることであるが、そこに到るま でにはハイパーパラメータのチューニングに何時間もかかるため、実 際の実行時間のほとんどはハイパーパラメータチューニングと大規模 実行特有のバグ取りに費やされると予想される。このタイミングで、 ABCI の 4096GPU を用いて世界記録を打ち立てることは、昨今の国 内外における人工知能ブームの中で、社会的に大きなインパクトを与 えるものとなることが予想される。