株式会社高電社様は、機械と人間のシナジー「次世代翻訳機能の実現」を目指して、大阪の地で1980年代から翻訳ソフトウェアの開発・販売を手掛けてきた、この業界のパイオニアです。今回は同社の高社長と、実際に現場で最新のAI翻訳の開発に携わる皆さんにお話を伺いました。
株式会社 高電社
代表取締役社長 高 京徹 様
高 京徹(以下、高):
弊社は1979年の創業以来、一貫して言語処理に取り組んでいます。辞書ソフトや翻訳、入力や音声合成ですとか、自社の技術だけでなくパートナーの技術と組み合わせてビジネスを展開しております。いま最も精力的に取り組んでいるのは、ソフトウェアによる翻訳と人の手による翻訳を融合させたソリューションを展開するということです。
― 自動翻訳は最近、非常に注目されている分野ですね。
高:
いま、チャット翻訳というものに取り組んでいまして、これは日本語で話す方と英語、中国語、韓国語の4人がそれぞれご自分のスマートフォンで話すと、日本語で話したものがそれぞれの言葉に翻訳されるので、4人全員が自分の言語で聞いたり話したりしてコミュニケーションが取れますよというものです。
― とても便利ですね。
高:
ありがとうございます。それから、ウェブ翻訳。日本に定住している外国籍の方が200万人台、観光で日本を訪れる海外の方は年間3000万人を超えて増加中ですから、自治体や企業のウェブサイトも日本語だけ書いていれば良いというものではなくなってきました。言語も英中韓以外にスペイン語、ポルトガル語、ベトナム語、タイ語なども必要ですが、ページを更新するたびに翻訳を発注するのは大変です。そこで弊社では、日本語サイト上に組込んだ翻訳ボタンがクリックされるつど自動翻訳が行われる「Myサイト翻訳」というサービスを提供しています。これは年額固定料金なので、予算管理も楽です。
― 日本語ページだけ更新して、翻訳ページの更新を忘れたり遅れたりする心配もないですね。管理がとても楽です。
高:
自治体さんには、日本語を入力すると各国語に翻訳されて音声合成するソリューションも提供しています。茨城県の常総市さんでは、2年ほど前の川の氾濫を機に、防災無線で多国語に翻訳した音声を放送するシステムを導入していただいています。
― 防災無線が日本語だけでは、外国の方は何が起きているかわからない。それは重要ですね。
― 1979年というと、まだPCもあまり普及していない時代からですね。最初はどんな商品を作っていらしたのですか?
高:
昔はMS-DOSもWindowsも多言語対応ではないので、日本語OS上では中国語や韓国語の文字を入力することすらできませんでした。文字コードもUNICODEではありません。そこでシフトJISコードで、見た目は中国語や韓国語で表示できるというような対応をしました。一番初めの翻訳ソフトは、1980年代後半に韓国語のものを開発しました。
― 1980年代後半ですか?まだMS-DOSで、フロッピーディスクの時代ですよね。1MBぐらいで翻訳ソフトが作れるって、今の常識だとちょっと信じられないです。
高:
今でこそ人工知能による翻訳も広く理解されていますが、それまで翻訳技術はどのように発展してきたのかと言いますと、長い間ルールベース機械翻訳(RBMT)という手法が主流でした。文法に基づいた解析をして翻訳結果を出力するよう、人間がプログラムでコントロールします。
それが学術の世界では2000年代、実用では2010年頃に、統計翻訳(SMT)という手法が台頭してきました。この段階ではあまり人工知能と言う感じはなかったのですが、そのあとニューラルネットワークによる機械翻訳(NMT)が入ってきます。RBMT、SMT、NMTという大きな3世代の流れがあったわけです。
― 当時の機械翻訳と今のは、原理が全く異なるのですね。
高:
ニューラルネットワークは、大量のデータを学習してそこから正しい翻訳結果を出すという手法ですから、大量のデータが必要で、従来使っていた計算機では到底処理が追い付きません。その時 、平井がこういうのありますよ、と私に持ってきたのがABCIで、いいのを見つけてくれたね、となって今一所懸命利用しています。
平井 徳行(以下、平井):
ABCIの記事は見ていたのですが、CEATECに出展されていた時の記事を見るまで、まさか自分でも使えるとは思っていなかったんです。大学さんいいなあ、と思っていたんですよ。
― いえ、民間企業にもどんどん活用していただいて次のビジネスを創出するのがABCIの目的なので、高電社さんのように活用していただけるのはありがたいです。
ところで、80年代からやってきたRBMTが2010年頃にSMTになり、すぐにNMTの時代に進んでしまった。SMTは短命だったのですね。
平井:
ルールベースっていうのは人間が作った辞書を使います。SMTはNMTと同じでデータをもとに作りますが、ある程度人がコントロールできます。ニューラルベースだと、中がわからない。実用化しようとすると、ここがうまく翻訳されていないよと言われても、直すことができないんです。
― SNSで会話できるAIを作ったら突然差別用語を言い出してしまって、そこだけ修正することができず、学習前に戻すしかなくなったなんて話もありました。
高:
あとは、同じ単語が何度か出てきたとき、それが毎回違う単語に訳されてしまって困るということも。
― 語彙は1対1で対応しているわけではないので、文脈から推測して適切な訳語を探しますが、この場合は全部同じ訳で良いのに変えてしまうと。
高:
ルールベースなら人間が制御できますが、ニューラルだと根拠はニューラルに聞いてくれ、ということになってしまいます。
― ここからは開発に直接従事されている川上さん、羅さん、趙さん にもお話を伺います。羅さんは中国、趙さんは韓国の方なんですね。言語によって開発を分担しているのですか?
羅 文涛(以下、羅):
技術的には共通の仕事で、訳文は各言語のネイティブ翻訳者に評価してもらっています。でも、ちらっと自分で見るくらいなら中国語、韓国語はそれぞれ自分たちでチェックします。
― なるほど、変な訳が出たときはネイティブなら違和感に気付けますよね。皆さんで研究開発をしておられて、最初は自分で計算機を買ってきて、ABCIも使っているという状況ですか?
川上 健(以下、川上):
機械学習は、どんな設定をするとどんな訳が出るか、前もって予想が難しい。学習のパラメーターはすごく種類があるので、どれが効くかを調べるのに、自社で買った計算機だと一度に1つの学習計算しか試せません。しかし、ABCIならバッチ処理で最大200個の学習計算が同時に試せますし、しかも1回1回が速いんです。180万組のデータの学習が、商用クラウドで1週間ぐらいかかるものが、ABCIなら1日半で終わります。
― 日本語と英語とか、そういう対になっていて正しい翻訳になっている文章を180万組学習させるわけですか。それは多いのか少ないのか…
羅:
180万組というのは、分野を限定しています。もっと汎用的な翻訳をするには1億組とか必要です。入力した文に対して訳文に出てくる確率の高さを計算するのですけれど、その頻度は分野が違うと優先順位が違う。今はまだ分野別で翻訳結果を見て、まず主語が正しいかとか、どんなパラメーターが有効かを先に確認しておきたいと考えています。
― 180万組の訳文を学習させるのに、ABCIをどのように使っているのですか?
羅:
通常は1個のGPUを使って学習をさせています。商用クラウドでも同じように1個でやっていたのですが、ABCIはそれより断然速いです。
― 画像などのディープラーニングでは多数のGPUを同時に使って大量の情報を学習させることもありますが、翻訳はテキストなので、データの容量は少ないのでしょうね。将来、1億組の対訳データを用いて機械学習などを行う場合は、多数のノードを同時使用することもABCIなら可能ですね。
川上:
1個のGPUしか使わない学習でも、パラメーターを変えたトライアンドエラーを10件同時に行うには、自社のハードウェアを用いる場合は10台用意しなければならないですが、その10台は実験が終わると遊んでしまいます。使いたいときにドーンと使って、使わない時には使わないということが可能なのが、ハードウェア購入とクラウドの違いですね。
― 180万組の文章は全てチェックするのですか?
川上:
全部見るのは当然無理なので、あらかじめ学習データから省いておいた文章をテストデータとして固定して、毎回その訳出を比較します。ニューラル翻訳は、学習に使った180万組を翻訳させると結構うまく翻訳できるのですが、過学習を起こしている可能性があって、他の文章は全然翻訳できないことがあります。そうすると性能がわからないので、学習には使わないセットを用意しておくのです。
― 答えを知っている問題には丸暗記で答えてしまうけれど、模擬試験で出てこなかった問題を出されると全然わからない。そういうところがルールベース翻訳と違うのですね。
羅:
頻度の低い訳文にディープラーニングが反応しない場合、どのくらい例文を追加すればよいのか、その程度も自分で試します。ニューラル翻訳では、その文章の意味がわかっているわけではないので、何回試したら正しい訳文になるのか見当をつける必要があるのです。
川上:
対訳コーパス(学習に用いる自然言語の対訳文章用例集)が1億ペア必要とか言われるのはそういうところだと思います。
― 180万組ぐらいだと、まだ偏りが出てしまう。1億ぐらいやってようやく、全然違う文章をまんべんなく学習できるってことなんですね。
平井:
いろいろな言語と日本語が対訳になった文章を集めようとすると大変なんです。弊社で扱っている言語はウェブサービスで32言語、クラウド翻訳では42言語ですからね、マイナー言語に関しては学習用データの入手が困難です。
― 英中韓独仏ぐらいなら、それなりにあるのでしょうけれど。
平井:
日英は多いですが、それ以外はがくっと減りますね。日英でも欧米間の、たとえば英独とかと比べると少ない。
― 中国や韓国と日本の交流はとても増えていますけど、それでも少ないんですね。秋葉原や池袋には、アニメファンの中国や韓国の方がたくさん来ていて、彼らの会話の方が日本語より多く聞こえるくらいですよ。
同社 開発室より
後列 技術専門職リーダー 趙 東柱 様(左)、 開発4課 羅 文涛 様(右)
前列 開発4課 課長 平井 徳行 様(左)、 技術専門職リーダー 川上 健 様(右)
― 翻訳の話がとても面白いので、ABCIの話から遠ざかってしまいました(笑)。ABCIを使っていて、もっとこうだったら使いやすいといったことはありますか?
趙 東柱(以下、趙):
ABCIって、個人でも使えるんですか?
― 今は日本国内の法人の方に限り利用いただけます。でもこういう仕事をされている方って、研究なのか趣味なのか境目のないようなことを個人でやって、技術を高めてたりしますからね。例えばどんなことをしてみたいですか?
趙:
さきほどアニメの話がありましたけれど、アニメの話し方って独特じゃないですか。そういう翻訳ができたら面白いなと。あんまり会社ではできないですよね。
― アニメっぽい日本語ってありますよね。そのニュアンスを外国語に訳すのが難しいと聞いたことがあります。日本のアニメは世界に輸出されていますし、実現できたら面白いですね。
聞き手 大貫 剛(ライター)
株式会社 高電社 https://www.kodensha.jp/index/