FY24開発加速利用

FY24開発加速利用

ABCI 3.0は、基盤モデル、生成AI、マルチモーダルAI等の最先端AI技術の研究開発、評価、人材育成を目的とした公的利用等に、重点的に提供することとしています。これを実現するため、共用高性能計算機ABCI利用約款に定める利用(「標準利用」という)のうち、目的への合致性、開発の公開性、利用者・利用原資の属性について要件を満たす利用を「開発加速利用」として認定し、標準利用料金からディスカウントした料金にて計算リソースを提供します。開発加速利用の詳細については下記をご参照ください。

本ページでは、2024年度開発加速利用に採択された研究開発課題を公表します。

研究開発課題

受付番号 研究開発課題名 研究開発の概要 利用法人名 利用責任者氏名 報告書
1 深層学習による系列学習 言語生成と時系列データの生成を同一の枠組みで扱える深層学習モデルの構築 豊田工業大学 佐々木 裕 PDF
2 深層学習を用いた高品質な少数ショット3次元CTスキャンの研究 JSPS研究活動スタート支援において令和6年度より採択された研究課題「深層学習を用いた高品質な少数ショット3次元CTスキャンの研究」に取り組む。3次元CTスキャンは、様々な角度から撮影した被写体のX線画像から、被写体内部の3次元構造を推定する技術である。通常は1回のCTスキャンに対して、数百枚以上のX線画像が必要になるが、深層学習技術を用いることで、少数のX線画像から高品質な3次元CTスキャンを得る手法の研究開発を目指す。 オムロンサイニックエックス
株式会社
諏訪 正樹 PDF
3 最先端AIモデルを用いた高度な言語理解・言語生成技術の研究 言語教育応用および医療言語情報処理を対象として,高度な言語理解・言語生成技術を開発する。具体的には大規模言語モデルにより文章を平易に言い換える技術,医療文書の自動要約技術,医療文書からの情報抽出を開発する。またそれらを支える基盤技術として,大規模言語モデルの言語生成制御技術,文章の意味類似度推定,大規模言語モデルの評価手法について研究する。 東京科学大学 荒瀬 由紀 PDF
4 タンパク質構造を予測する技術の開発 本研究では、産総研と米国Purdue Universityの研究者が協力し、現状で課題となっている、単数のアミノ酸配列からのタンパク質立体構造予測性能の向上および予測に要する計算コストの削減に向け、新規深層学習モデルの開発を実施する。 産業技術総合研究所 富井 健太郎  
6 日本語特化リアルタイム音声対話システムの開発 日本語に特化したリアルタイム音声対話システムを開発する上で必要になる大規模な大規模音声言語モデルの作成を行う。LLM (Large Language Model: 大規模言語モデル) アプリケーションとして代表的なGPT-4oは音声をシームレスに処理することでリアルタイムな音声対話を可能にするが、現実の場面での日本語の認識精度は80%を切る場面も存在する。そのため、より精度の高い日本語でのリアルタイム音声対話システムが望まれている。私たちは、事前学習済みの言語モデルの知識を利用して大規模音声言語モデルを学習することで、自然な音声対話をリアルタイムで再現することを可能にする。 株式会社CoeFont 西邑 勇人  
7 Video-LLMによる熟練者作業理解とロボット動作学習への転移 本研究では、Video-LLMを活用し、熟練者の作業動画からタスク情報およびモーション情報を抽出し、これらをロボットに提供することを目的としている。タスクに対応する動作はモーションプリミティブとして扱い、模倣学習を通じて技能を習得し、ロボットが実際の状況でその技能を発揮できるようにする。ただし、既存の学習済みVideo-LLMでは、時刻の特定や内容の認識に誤りが生じる可能性がある。その場合、モデルのファインチューニングが必要となり、そのためにABCI3.0の利用を申請する予定である。 東京大学 WANG YUSHENG  
8 人工知能とシミュレーション技術の融合 化学プラントや物流システムなどの産業界で使われている大規模システムの最適制御・最適設計を、シミュレーターを利用した機械学習によって実現する。産総研とNECとの大型連携の共同研究の一環であり、原資は全てNECからの共同研究費による。 産業技術総合研究所 中田 亨 PDF
9 継続事前学習に基づく汎用性および有用性の高い日本語大規模言語モデルの構築 最新のオープンなLLMをベースに継続事前学習を行うことで、高い日本語基礎能力を持ち、汎用性及び有用性を兼ね備えた基盤LLMを構築する。加えて、チューニングやアライメントについても取り組み、幅広いタスクで人間の指示に従い、高い性能を示すモデルを構築する。これらの研究開発を通じて、GPT-4やClaude 3並の応答を返すLLMを構築するための「レシピ」を明らかにし、開発したモデルを公開する。これにより、日本の研究コミュニティへの知識共有だけでなく、産業界におけるLLMの利用にも貢献する。また、得られた知見は論文や技術報告として一般に公開する。 産業技術総合研究所 高村 大也  
10 高解像度人間基盤モデルの学習と構築 ECCV2024においてSapiensと呼ばれる高解像度人間画像基盤モデルがメタ社から発表され、複数のベンチマークで従来法を凌駕する性能を発揮し注目を集めている。しかしながら、このモデルは、関節位置の推定や身体パーツのセグメンテーションなど二次元の画像認識に限定されており、計算コストが高くリアルタイムアプリケーションに利用することが難しいなどの課題がある。本研究開発では、リアルタイム実行と三次元タスクへの適用を可能とする高解像度人間基盤モデルの構築を目指す。 産業技術総合研究所 吉安 祐介  
11 日本語に強い大規模言語モデルの構築およびチューニング並びに透明性・信頼性の確保に向けた研究開発 日本語に強い大規模言語モデルの事前学習およびSFT/DPOなどの手法を用いたチューニングの実施並びに構築したモデルを用いた透明性・信頼性の確保に向けた研究開発 情報・システム研究機構 黒橋 禎夫  
12 信号処理と機械学習を活用した地震波形ビッグデータ解析による地下断層の探索 地震波形データに基づいて地下断層を検出し、その形状を客観的に推定することを目指す。そのために、地震波形データの自動処理を起点として、震源分布による地下断層面の自動推定や、後続波による反射面等の形状の推定につなげる研究を行う。さらに、開発したプログラムの公開などを通して、地震研究に情報科学を活用する研究基盤を整備する。 産業技術総合研究所 緒方 淳  
13 Representation Learning and Natural Language Processing This project conducts research on Natural Language Processing, using neural nets and pre-trained models (including large language models or LLMs). The University of Tokyo 野海 芳博  
14 音声・音響・振動データの大規模基盤モデル構築および利活用 音声・音響・振動データ処理の技術開発に資する音声・音響・振動データの基盤モデルを構築し、それを利活用する手法を研究開発する。日本語や多言語の音声データ・字幕情報、多様な環境で収録された音響・センサデータ等を用いて、主に自己教師あり学習による汎用的な事前学習モデルを構築し、モデルを利活用することで人工知能技術を開発する。さらに構築したモデルを産業界およびアカデミア向けにリリースし、音声・音響・振動データに関する人工知能技術を広く世の中に普及させる。 産業技術総合研究所 深山 覚  
15 超大規模パラメータ空間の高速最適化に関する研究 深層学習やマルチエージェントシミュレーションの大規模なハイパパラメータを高速で最適化することでより良いモデルを作成する。
本研究の詳細な研究内容は以下の通り
(1) 深層学習のハイパパラメータ調整
(2) マルチエージェントシミュレーションのハイパパラメータ調整
(3) 早期打ち切りによる探索の時間短縮
(4) 転移学習による探索時間の短縮
(5) 大規模な深層学習モデルの作成
産業技術総合研究所 大西 正輝  
16 Lv4自動運転トラックサービスのためのマルチモーダル3次元物体検出器の開発 Lv4自動運転トラックサービス実現のために、カメラ、LiDAR, radar などの様々なモダリティを活用した3次元物体検出器を開発する。 株式会社T2 辻 勇気  
17 材料開発を加速させる汎用ニューラルネットワークの研究開発 材料における原子スケールの実世界基盤モデルと位置づけられる汎用Neural Network Potential (NNP)の実現が現実的なものとなり、様々な産業の材料開発の現場で使われ始めている。本研究開発では、我々が開発している汎用NNPであるPFPの開発に取り組む。現実世界の再現性をより高めるべく、r2SCANと呼ばれる従来手法より精度が高く計算コストの重い手法を採用し、これを用いた多様なデータセットの作成とモデルの開発を行う。我々は世界に先駆けて汎用NNPを実現した実績をもち、r2SCANレベルの汎用NNPも世界で初めて実現することを目指す。本研究開発により得られた成果は、株式会社Preferred Computational Chemistryより、Software-as-a-ServiceであるMatlantis®として90を超える国内外の企業・研究機関に提供される見込みである。これにより、電池、触媒、半導体材料を始めとした、産業上重要な材料の研究開発を加速し、環境・社会問題の解決に貢献することを目指す。 株式会社Preferred Networks 品川 幾 PDF
18 限られたラベル・データ・モダリティからのAI基盤モデル構築 AI基盤モデルが学術・産業分野を席巻する中、主な研究開発は計算・データ量の巨大化が実現可能なBigTechに支配されている。この状況打破には、標準的な計算資源による実用的なAI基盤モデル構築が急務である。既に日本チームは数式駆動型学習によりAIの基礎的な視覚機能獲得に成功、一方で欧州チームは実データの高効率適応学習を用いることで、実世界タスクに即座に対応する機能を獲得できる。ここで、国際連携による融合学習スキームの提案を通して、AI基盤モデルの新しい学習技術の確立を目指す。 産業技術総合研究所 片岡 裕雄  
19 状況を考慮してデータを解釈し情報伝達する人工知能基盤技術(NEDO3.0)の開発 画像や数値データなどに対して自然言語による質問応答や知識ベースと接続した推論などを行うためには,入力データの情報を何らかの形で構造化表現として表す必要がある。画像処理や自然言語処理においては,シーングラフや述語項構造といった構造化表現が様々な応用において用いられている。本研究では,これらの構造化表現をベースとし、時間情報や文脈・メタ情報を利用することで状況に依存した構造化表現を得る技術の開発を行う。 産業技術総合研究所 高村 大也  
20 生成AIおよび周辺技術の開発 大規模言語モデルを特定ドメインにアダプトさせる技術の開発、また大規模言語モデルの活用技術として、数値データや構造化データを扱う技術、外部知識を扱う技術、リアルタイム性を実現する技術などを開発する。 産業技術総合研究所 高村 大也  
21 マルチモーダル実況生成とその評価 本研究では大規模言語モデルによる実況生成モデル開発を行う。大規模言語モデルによる言語生成技術の向上により,サッカーや自動車の動き等をリアルタイムに言葉で説明することで視聴者の理解を助ける技術が実現されつつある。このようなリアルタイムな言語生成技術の応用場面では,1) センサーデータ・映像データを正しく解釈し言語生成するマルチモーダル言語生成技術,2) “いつ、どの程度の時間発話するか”といった時間制約を考慮した言語生成技術,3) 「現在、第三位です」のような付帯状況の伝達をうまく入れ込む技術、 4) “実況者”と”解説者”による会話を用いたマルチパーティ実況生成技術,5) 自動生成した実況が良いものか否か自動で判断する自動評価指標が必要となるが,現在,開発途上となっており、本研究により開発を進める。 産業技術総合研究所 石垣 達也  
22 大規模地理空間データに基づく基盤モデル構築 緯度・経度・標高・時間といった地理空間と紐づいたデータは現在社会の基盤データの一つとなっているが、AIモデルは多様な地域性を背景に地域ごと、センサー種別やタスク目的ごとに準備され、データの大規模化に対して都度学習のコストが問題になる。本研究では産総研が独自に整備したペタバイトを超える衛星データや航空機3次元点群データを活用し、地理空間解析に必要な様々な分析処理(物体検知・セグメンテーションなど)の再学習コストを劇的に低減させる基盤モデルの構築と、学習を高精度に行う手法の研究開発を行う。 産業技術総合研究所 原 健翔  
23 LLMの事前学習のための学習環境の構築や環境検証のための小規模なモデルの開発 NICTでは、来年度以降、20TB以上の日本語学習データを用いた日本文化、アイデンティーに忠実な2,000億パラメータ以上のLLMの学習を計画しているが、本研究では、その学習環境の動作確認、計算速度の推定、適切な学習データの構成等を事前に調査、確認するため、これまでに100個以上の大小の日本語LLMを構築した経験を元に、80億パラメータと160億パラメータの小規模なモデルの作成を行う。NICTでは、現在、民間企業に巨大日本語データの提供を開始しているが、それら日本語データの適切な構成、学習環境や有効性の確認という意味でも本研究は学術的、社会的、公共的インパクトを有するものである。加えて、NICTでは複数のLLMやその他のAIをRAG等の手段を含めて柔軟に組み合わせて、生成AIの創造性、安全性、多様性をenhanceするためのソフトウエアプラットフォームであるWISDOM-LLMの開発を進めているところであり、今回構築するLLMは小規模ではあるものの、WISDOM-LLMの構成要素の一つとなり、その能力の強化に資するものである。 情報通信研究機構 呉 鍾勲 PDF
24 大規模言語モデル支援による細胞分化法のデータベース構築及び培養条件の最適化 ローカルLLMを用い、細胞分化法に関わるパラメータ(培養法)を多数論文から取得しデータベースを構築・解析する。解析により培養法の最適化を目指す。 東京大学 西川 昌輝  
25 動画像における柔軟な転移学習を実現する事前学習モデルの構築 本研究では,アノテーションコストが静止画以上に大きい動画像データにおける柔軟な転移学習を可能とするために,大規模かつ多様なデータベースを利用して事前学習モデルを構築し,容易に動画認識技術を様々なドメインに適用可能とすることを目的とする.すでに公開されているあらゆる動画像データを,時間幅,カテゴリなどの矛盾を許容しつつ1つのデータベースとして統合することで,巨大で多様かつ誰でも入手可能なデータベースを構築する。 産業技術総合研究所 原 健翔  
26 深層学習における最適化アルゴリズムの理論と応用 LLMなどの大規模な深層学習モデルを安定かつ高速に学習できる最適化アルゴリズムの理論的な導出とその有効性の大規模な実験検証を行う。 The University of Tokyo 野海 芳博 PDF
27 大規模言語モデルを活用したロボット制御の学習アルゴリズムの効率化に関する研究 近年、大規模言語モデル(Large Language Model; LLM)や視覚言語モデル(Vision Language Model; VLM)の発展により、ロボット学習分野においてもこれらのモデルを活用する動きが加速している。特に、LLMやVLMが持つ人間的な常識推論能力を活用し、自然言語の指示をロボットが実行可能な基本動作(物を掴む、置く、移動するなど)の系列に変換するタスクプランニングの研究が進展している。従来は高位のプランニングにこれらのモデルを用いることが主流であったが、近年では低位のモーションプランニングにも活用する試みが増えている。具体的には、自然言語からロボットの行動をend-to-endで生成する手法が注目を集めている。
本研究の目的は、LLMやVLMの性能を効率的に活用し、ロボットの行動生成に結びつける方法を確立することである。そのため、以下の3つの課題に取り組む。
1. ロボットデータの継続的な収集システムの構築
2. LLMおよびVLMをVision Language Action model(VLA)へとファインチューニングする方法の体系化
3. モデルの検証とスケーラブルな学習フレームワークの構築
具体的には、全国30以上の拠点に配置されているトヨタのHuman Support Robot(HSR)とそのコミュニティを活用し、協創的かつ公共的なデータ収集、モデル学習、検証を実施する仕組みを構築する。現在、10拠点前後がこの取り組みに参加しており、データ収集やモデル学習に協力している。今後はさらに規模を拡大し、全国規模でデータ収集、モデル学習、検証のループを並列的に回す仕組みを整備することを目指している。
これらの取り組みを通じて、VLAによるロボットの基盤モデルを構築し、ロボット学習分野における新たな技術基盤を創出することを目指す。
The University of Tokyo 野海 芳博  
28 動画基盤モデルの構築 本研究では,動画を扱うAI基盤モデルの構築を目指す.特に,(1)手・物体インタラクションの詳細な理解を可能とする基盤モデルおよび(2)作業手順を理解可能な基盤モデルの構築にそれぞれ取り組む.コンピュータビジョン分野においては,基盤モデルにより静止画内の内容を高精度に理解することは実現されつつある一方で,動画中の時系列的な変化を的確に理解するには未だ困難な課題が残っている.人が作業をする際には目的を持った一連の作業が行われ,各手順の中で扱う物体の状態は継続的に変化していくため,それらの手順を適切に切り分けつつその中で生じる手・物体インタラクションを理解することは難しい.そこで本研究では,手・物体インタラクションの理解および作業手順の理解の両側面から問題の解決に取り組む。 産業技術総合研究所 原 健翔  
29 汎用で適応性が高い制御の獲得を目指したロボット学習のスケール化 Vision-Language Model (VLM)、Vision-Language-Action Model (VLA)をベースとしたロボット向けの基盤モデルが盛んに研究されている。そこで我々は、様々な作業に対して適用可能で、多様な環境において適応性の高い制御の獲得を目指した新しいロボット基盤モデルの提案と大規模なモデル学習を実施する。特に、トヨタ自動車製のモバイルマニピュレータであるHuman Support Robot (HSR)を使用し、複数の拠点においてテレオペレーションや自動化されたデータ収集システムによって収集された大規模なロボットデータセットを用い、大規模なモデル学習を実施する。 The University of Tokyo 野海 芳博  
30 マルチモーダルAIによる多様なドメインの専門知学習方法の開発 本研究の目的は,LLMに視覚機能を持たせたマルチモーダルAI(MLLM)に,専門家が持つ「マルチモーダル専門知」を獲得させる方法を開発することである.マルチモーダル専門知とは,インフラの維持管理や災害リスク評価,自動車の運転など多岐にわたる実社会の問題解決において必要な,視覚と言語を組み合わせた専門的な知識や技能を指す。本研究では,画像から多様な情報を抽出可能なアーキテクチャと学習方法を設計し,MLLMの問題解決能力を高める。研究成果は論文や公開データとして広く社会に還元し,国内外のAIの開発および実用化を加速する。 東北大学 岡谷 貴之 PDF
31 時系列基盤モデルを用いた異常検知 自然言語処理や画像処理で成功を収めた基礎モデルの概念を応用し、時系列データ解析のための事前学習済み大規模モデル「時系列基盤モデル」の構築が注目されている。これまで、異常検知をはじめとする時系列データ解析タスクでは、各ドメインに特化したモデルを構築することが主流であった。しかし、大規模言語モデルが多様なタスクに適用され成功を収めた実績を踏まえれば、時系列データ解析においても時系列基盤モデルの応用が新たな可能性を切り拓くと考えられる。
本研究開発課題では、事前学習済みの時系列基盤モデルを活用し、時系列データ解析タスクのうち異常検知タスクにおける有効性を検証する。さらに、時系列基盤モデルを異常検知に適用する際に直面する課題を特定し、その解決策を提案することで、時系列基盤モデルの適応性と実用性を更に高めることを目指す。
中央大学 丸 千尋  
32 産業応用のためのドメイン特化型基盤モデルの構築と最適化技術の研究開発 高度に専門的な実応用タスクに対して汎用的に適用できる基盤モデルの構築とその最適化手法の研究開発を行う。具体的には、応用領域における各種データから効果的かつ汎用的な特徴抽出が可能な基盤モデルの学習技術の開発と、最終タスクでの学習効率を向上させるパラメータ最適化技術を研究開発し、研究チームが保有する医療画像をもちいた診断タスクにおいて、構築した基盤モデルと最適化技術の効果を検証する。 産業技術総合研究所 上原 和樹 PDF
33 産業現場タスクの自動化を目指すマルチモーダル・ロボティクス基盤モデルの開発 「産業現場タスクの自動を目指すマルチモーダル・ロボティクス基盤モデルの開発」において,教示データ(人間がロボットを操縦して取得したデータや人間がタスクを実行する様子を計測したデータ)をもとにテキスト等の指示に応じてロボットに日常環境や製造工程の多様なタスクスキルを獲得させることを目的として,マルチモーダルな深層学習モデルの開発やロボットへの組み込みを行う。 産業技術総合研究所 元田 智大 PDF
35 キャリア構成ポートレート ⽣成モデルの開発 現在、心理的な支援は専門家であるカウンセラーによる介入が欠かせない。しかし、カウンセリングには専門的な知識習得のほかに、実践的な訓練を継続的に行う必要がある。そのため、心に問題を抱える人々に十分に支援の手が届いているとは言い難い。
 そこで、カウンセラーの対話の支援を目的とする大規模自然言語モデルの研究開発を目的とする。カウンセリング支援を目的としたモデル開発することで次のようなメリットを期待している。
 まず、心理的な支援に言語生成AIを用いた場合の効果を科学的に評価するための足掛かりとなることである。次いで、現状では、カウンセリングにおける効果や危険性を測る評価基準に関する研究は見当たらない。また、カウンセリング領域の研究成果が、AIと人間の心や認知の関係といった基礎領域への間接的な貢献の期待できる。
一般社団法人ライフデザインカウンセリング研究所 水野 崇 PDF
36 メディアインタラクション技術に関する研究開発 膨大なメディアコンテンツおよびその利用ログを含むメタデータの解析や機械学習、メディアコンテンツ処理、音響信号処理、ビッグデータ処理、深層学習等に利用する。 産業技術総合研究所 濱崎 雅弘  
37 データの倫理問題を根本解決する視覚言語基盤モデル構築 本研究では、(1)数式など生成規則から自動生成された擬似画像・テキストによる一段階目の事前学習、(2)権利関係トレース可能な教師ラベル付実画像のみを用いた二段階目の継続事前学習により、データの倫理問題を根本解決する視覚言語基盤モデルを構築する。(1)では合成ながら実世界の法則を模した画像・テキストパターンにより初期の事前学習を実施することで視覚・言語機能を獲得しやすくする。さらに(2)では(1)の学習済パラメータから継続して事前学習を実施する。権利関係が明らかになっている画像・言語データセットのみを用いて視覚言語基盤モデルを構築する。 産業技術総合研究所 原 健翔  
38 LLM構築の効率化に資する内部挙動分析と計算コスト削減法の確立 LLMの構築には膨大な計算コスト(予算や計算時間)が必要である。従来用いられてきたモデル構築法の学習時の内部挙動を詳細に分析し、コスト削減が可能な要因を特定する。その後、得られた要因分析結果を基に、LLM構築のネックになっている部分を改善し、現在の事前学習コストを半分以下に削減可能な新手法の確立を目指す。 東北大学 鈴木 潤  
39 データの枯渇問題を軽減する3D基盤モデル構築 本研究では,限られた3D データ下において深層学習モデルの性能を改善することを目指し,生成モデルから生成された合成3D点群をデータ拡張として活用することで3D基盤モデルを構築する.具体的には,生成モデルから合成ながら実世界法則を模した3Dパターンを自動生成することにより,高品質かつ多様な3Dデータが必要とされる3D基盤モデル開発において喫緊した課題であるデータ枯渇問題を解消する.さらに,点群レベルの教師ラベルを付与することで追加の学習データを一切必要とせず,実環境を正確に認識するための3D基盤モデルを構築する。 産業技術総合研究所 原 健翔  
40 Towards Interpretable Foundation Models: Sparse Auto-Encoder-Based Transformer Architectures Transformer-based architectures have become the backbone of modern foundation models and have enabled dramatic progress in generative AI. However, these models are notoriously difficult to interpret, posing significant risks in high-stakes domains such as medicine, education, and law, where understanding model decisions is crucial for trust and accountability. The main difficulty in interpreting Transformer-based models lies in their extremely high-dimensional, dense internal representations. This project proposes a novel variant of the Transformer architecture that replaces dense layers with Sparse Auto-Encoder (SAE)-like layers, inspired by recent advances in mechanistic interpretability. By embedding sparse, interpretable features directly into the model’s architecture, this approach eliminates the need for post-hoc interpretability techniques and ensures that the model’s decisions are inherently transparent.

The proposed architecture aims to maintain or exceed the performance of traditional Transformers while significantly improving interpretability, enabling safer and more trustworthy deployment in critical applications. This work has the potential to redefine how foundation models are designed, making them more aligned with ethical and practical demands in sensitive domains.
理化学研究所 乾 健太郎 PDF
41 ロボット制御のための大規模世界モデルの構築 ロボットの制御方法の一つとして,世界モデルを用いた制御が挙げられる.世界モデルは,観測された情報から将来何が起きるか予測するモデルの総称である.世界モデルをロボットの制御に応用することで,自身の行動と観測された情報を用いて将来を予測し,所望の将来になる行動が可能になることが期待される。一般的にロボットには様々なセンサが搭載されており,様々な観測データ(=マルチモーダルデータ)が手に入ることから,世界モデルの構築は可能である。以上のことから,本研究課題では,シミュレータや実環境で収集したデータを複合的に扱い,ロボットの制御や操作を行うための世界モデル構築および構築した世界モデルの実環境化での性能評価などを行う。 株式会社松尾研究所 野海 芳博  
42 世界モデルによる自動運転技術の確立 本研究開発課題では,自動運転に向けた世界モデルの構築を目指す。近年の大規模言語モデルの研究開発を通して得られた知見によって高性能な動画予測モデルの構築が可能となっており,自動運転での転用や利用する流れが来ている。特に欧米や中国などの国外では研究開発が加速しており,徐々に自動運転技術のための世界モデルが公開されてきている.世界モデルを使うことで,自車の今後の行動・制御計画を行うことができ,End-to-Endな自動運転技術の実現が可能となる。欧米や中国で開発されたモデルは非常に性能が高く,実際の環境・公道で自動運転が可能となっている一方で,自動運転領域における特有の課題である景観や道路交通法の違いにより,公開されているモデルを日本でそのまま利用することは難しい。
そこで本研究課題開発では日本での利用を目指し,自動運転用世界モデル開発に関する知見の獲得とオープンモデルの構築を行う。その際には,既に公開されている事前学習モデルの追加事前学習や事後学習および,事前学習モデルを使わずにフルスクラッチで学習を行う2種類の方針に基づいて行う。さらにこれらの学習を通して獲得された世界モデルを用いた自動運転のEnd-to-End技術,すなわち世界モデルの学習と同時に自動運転の制御計画が可能な技術の研究開発に取り組む。
株式会社松尾研究所 野海 芳博  
43 ABCI3.0上でのマルチモーダル事前学習のための共通基盤開発 言語による事前学習ではMegatron-LMを用いることでABCI3.0の性能を最大限に発揮できるが、画像や音声などを含めたマルチモーダルな事前学習においては、最先端のMegatron-LMを用いたとしても性能は十分ではない。本研究では、これからABCI3.0上で多く行われるであろう、マルチモーダル事前学習の共通基盤を整備する意味で、NVIDIAと連携しならがMegatron-LM等のマルチモーデル化とそのABCI3.0上での性能向上・機能拡張を目指す。 東京科学大学 横田 理央 PDF
45 産業応用のための基盤モデルの構築と最適化技術の研究開発 実応用タスクに対して基盤モデルを用いてAIモデルを容易に構築するため、実応用タスクでの転移学習時の学習効率を向上させる基盤モデルの構築とその最適化手法の研究開発を行う。具体的には、基盤モデルの高い汎用性を維持したまま、最終タスクでの学習効率を向上させるパラメータ最適化技術を研究開発し、構築した基盤モデルを用いて研究チームが保有する医療画像診断タスクにおいて、転移学習時の学習のしやすさを検証する。 産業技術総合研究所 野里 博和 PDF
46 生成AIコード生成の深化を目指したデータ保護と言語間転移 NTT研究所(ソフトウェアイノベーションセンター)との共同研究で一部、実施している、生成AIを用いたソフトウェア開発の深化させるモデル開発、評価のを行う。

* 英語コード生成から日本語への知識転移促進
* 機密性の高い社内コードの学習時のデータ保護法
日本女子大学 倉光 君郎  
47 偽情報対策特化型LLMの開発 本研究は、NEDOのプロジェクト「経済安全保障重要技術育成プログラム/偽情報分析に係る技術の開発」(1)の開発項目の一つであり、「偽情報対策特化型LLM」をモデル学習することが目的です。
偽情報対策特化型LLMは、偽情報対策が対象とする災害・医療・政治・経済などの領域において高い自然言語処理を備え、報道文章やソーシャルメディア文章において優れた解釈能力を持つことが要請されます。
本研究では、既存のLLM(100Bパラメータ規模を想定)をベースモデルとして選定し、そこに偽情報対策が対象とする報道文章やソーシャルメディア文章を中心として学習データを準備し、継続事前学習や指示学習を行います。
このLLMの継続事前学習および指示学習をABCI3.0で実行したく、本件に応募するものです。
1
NEDOのプロジェクト公募: https://www.nedo.go.jp/koubo/CD2_100359.html
プロジェクト採択時(2024年7月)のNEDOのプレスリリース: https://www.nedo.go.jp/news/press/AA5_101763.html
同、富士通のプレスリリース: https://pr.fujitsu.com/jp/news/2024/07/19.html
プロジェクト開始時(2024年10月)の富士通のプレスリリース: https://pr.fujitsu.com/jp/news/2024/10/16.html
富士通株式会社 小林 健一 PDF
48 大規模基盤モデルの論理的思考力と適応性に関する研究開発 大規模言語モデルをはじめとする基盤モデルの開発において、論理的思考力を向上させる手法を検討するとともに、既存のアプローチでは対処が難しいタスクや未知のタスクへの適応性を補完する新たなアプローチを研究します。 Sakana AI株式会社 秋葉 拓哉 PDF
49 冗長な観測のマルチビュー学習に基づく信頼性の高い三次元センシング技術の開発 本研究は、デジタルカメラと光を用いて、表面状態が可変的な被写体に対し、情報捏造を行わない高い信頼性と精度を有する三次元センシング技術を創出する。従来の多視点ステレオ法や照度差ステレオ法のように、被写体の多角的な観測を物理的に解釈するのではなく、機械学習の一分野であるマルチビュー学習に着目して、分光・偏光イメージング技術に基づく未校正かつ冗長な観測の解釈をデータから直接学習する事により、厳格な物理モデルと環境制御の必要性を大幅に軽減し、未知の状況に対する頑健性と信頼性を向上させる。「生成」ではなく信号的厳密性を保持した「計測」のための大規模基盤モデルの創出を目指す。 国立情報学研究所 池畑 諭