クラス 所属機関名 代表者名 課題名 研究の概要
第3回 A LINE株式会社 Nguyen Tung 大規模日本語BERT(~6.7Bパラメーター)の構築及びBERTベース(110Mパラメーター)への蒸留 2021-3-A-2
第3回 A RIKEN Center for Computational Science Drozd Aleksandr TikTok2Vec: Scaling Self-Supervised Video Pretraining 2021-3-A-1
第2回 V-Medium 産業技術総合研究所 Truong Thao Nguyen High Performance IO for Large Scale Deep Learning 2021-2-M-3
第2回 V-Medium 東京工業大学 横田理央 人工画像を用いたVision Transformerの超大規模事前学習 2021-2-M-2
第2回 V-Medium 東京工業大学 佐藤育郎 画像・言語モデル学習における最適化手法の分布外汎化に対する網羅検証 2021-2-M-1
第1回 V-Medium 産業技術総合研究所 陳鵬 Large-scale Image Reconstruction on ABCI 2021-1-M-1
第1回 A 富士通株式会社 笠置明彦 日本語大規模モデルの分散並列学習 2021-1-A-1

研究の概要 (2021年度第3回)


研究概要:ABCIの大規模なインフラを活用することで、大量なコーパス(1.5TB、700Mサンプル、400B tokens)に対して短期間で約6.7Bパラメーターの日本語BERTモデルを訓練することに挑戦します。その後、小規模のリソースでも稼働できるBERT base(110Mパラメーター)に蒸留し、スクラッチから訓練したBERT baseよりも高性能が出ることを検証します。最後の蒸留したBERT baseモデルをオープンソースに公開することで、研究開発コミュニティに貢献します。

課題名:TikTok2Vec: Scaling Self-Supervised Video Pretraining

研究概要:This Grand Challenge project aims at attempting to perform a self-supervised pretraining of video recognition models at unprecedentedly large scale. Using 400K TikTok videos we predict 143K unique movement patterns associated with different songs. We experiment with a range of neural network models for video recognition based on the cutting edge approaches. The two most promising architectes we work with are a multi-path 3D convolutional architecture (based on SlowFast Network) and one using visual self-attention (based on TimesFormer). Trained models can be used for a number of down-stream tasks such as pose estimation and action recognition. Several pilot studies we performed suggest that this approach is viable and we hope that it potentially can outperform end-to-end methods in the related tasks, in addition to giving a tool for exploring a space of dance move representations. The research question we would like to address are:

研究の概要 (2021年度第2回)

課題名:High Performance IO for Large Scale Deep Learning

研究概要:Stochastic gradient descent (SGD), the most prevalent training algorithm for Deep Learning (DL), iterates through the entire data set in each training epoch processing data samples in a random access fashion. Scientists have performed a great deal of work to optimize the computational performance of deep learning frameworks. However, the same cannot be said for I/O performance. The state-of-the-art approach to distributed SGD in HPC environments is to replicate the entire dataset to node’s local SSDs. However, due to rapidly growing data set sizes this approach has become increasingly infeasible. Surprisingly, the question of why and to what extent random access is required has not received a lot of attention in the literature. In this work, we revisit data shuffling in DL workloads and investigate the viability of partitioning the dataset among workers and performing only a partial distributed exchange of samples in each training epoch. we plan to demonstrate that in practice (i) validation accuracy can be maintained and (ii) significantly reduce the IO time through extensive experiments on ABCI, especially for large-scale training, e.g. 1000s of GPUs.

課題名:人工画像を用いたVision Transformerの超大規模事前学習

研究概要:Vision Transformerによる事前学習を用いた手法は2021年7月現在ImageNet-1kベンチマークの精度が1位であり,今後その性能はさらに向上することが予想される.しかし,このような超大規模事前学習にはJFT-300MやJFT-3Bのような超大規模データセットが必要であり,Googleはこれらのデータセットを公開していないため再現が困難となっている.一方,Fractalなどの人工画像を事前学習に用いることでImageNetなどの自然画像で事前学習を行った場合とほぼ同等のファインチューニング精度が得られることが示されている.ただし,Fractalによる事前学習は現時点ではImageNet-1k規模の事前学習でしかその精度は確認できていない.本研究課題では,Fractal画像による事前学習をImageNet-21k, JFT-300m規模にまで拡張することで,人工画像によって大規模事前学習の精度をどこまで向上できるかを検証する.これにより,画像処理分野においてますます拡大しているデータセット規模の格差を是正することを目標とする.



研究の概要 (2021年度第1回)

課題名:Large-scale Image Reconstruction on ABCI

研究概要:In this work, we employ ABCI to speed up the computation for generating the high-resolution 3D images such as 20483, 40963, and 81923. There is a motivation to optimize image reconstruction algorithms for distributed systems. It is because a wide class of applications necessitate the representation of the real-world by 2D and 3D images. Due to the rapid development of semiconductor manufacture, 2D images are very easy to obtain by a variety of image sensors such as optical sensor, X-ray imaging. Hence, 2D images are commonly used by the Deep Neural Network. However, it remains to be a non-trivial task to obtain high-resolution 3D image in some systems, e.g. CT (Computed Tomography), and MRI (Magnetic Resonance Imaging). One of main challenges is the requirement of massive compute power. Our main goal is to efficiently reconstruct 3D images, and hence be able to apply Deep Learning on 3D images. High-resolution CT, that builds on image reconstruction algorithms, is used in a wide variety of fields, e.g. medical diagnosis, non-invasive inspection, and reverse engineering. In the past decades, the size of a single three-dimensional (3D) volume generated by CT systems has increased from hundreds of megabytes (the typical sizes of a volume are 2563, 5123) to several hundreds of gigabytes (i.e. 20483, 40963). The increased demand for rapid tomography reconstruction and the associated high computational cost attracted heavy attention and efforts from the HPC community. In this work, we propose an efficient implementation that takes advantage of the heterogeneity of GPU-accelerated systems by overlapping all the image reconstruction operations. Also, we propose a distributed framework for high-resolution image reconstruction on ABCI supercomputer. This research meets the challenges of both Big Data (i.e. I/O bottleneck) and is also a prerequisite for investigating the use of DL with high-resolution 3D images.


研究概要:言語処理分野では大規模モデルを用いる事で人が見ても判別できないレベルの文章の生成を達成している。このような巨大言語モデルは大規模クラスタによる分散並列実行を前提としたモデルであり、演算機のメモリ容量と分散並列実行時のスケーラビリティが大きな課題となる。本研究では大規模言語モデルに対して日本語を学習データとしたプリトレーニングを対象とする。 この研究では、HPCハイエンドマシンであるABCIにおいて高いスケーラビリティを実現すべく、演算面では言語処理用大規模モデルをパラメータ並列とデータ並列を組み合わせたハイブリッド並列を実現する。また、大規模な学習データの取り扱いの読み出しや、ノード間、ノード内のデータ転送の何れもボトルネックとなる可能性があるため、システム全体でのスケジューリングを最適化する事でボトルネックの解消を目指す。ネットワークモデルは巨大サイズのT5モデルを対象とし、本技術により世界最高速レベルの大規模言語モデル学習を実現する。