利用事例

連載24回:株式会社RevComm 様

音声認識AIで新しいコミュニケーションを創造する

 第3次AIブームが到来して約20年が経過しています。AIが活躍するところでは、人間では見つけられないものを探す画像認識や、声を使って機械を操作する音声認識など、これまで人間ではできなかったことを、機械やAIがその一部を担う時代になりました。しかしながら、全ての画像や音声を処理できるわけではなく、まだまだ発展している分野です。
 これまで価値化が進んでいなかったコミュニケーションに対して、音声認識AIを活用したデジタル化を推進し、新しいコミュニケーションを創造する株式会社RevComm 橋本様にお話をお伺いしました。
会話だけではない、AIを活用した新しいコミュニケーションの形は、もう始まっているのかもしれません。

 

株式会社RevComm 橋本 泰一 様

株式会社RevComm 橋本 泰一 様


AIで会話をデジタル化し、会話の見える化・会話の見せ方を変える


― 御社が携わっている事業を含めて、御社のプロフィールをご紹介いただけるでしょうか?

橋本 泰一(以下、橋本):

 最初に弊社、株式会社RevCommのビジョンについてご紹介します。「コミュニケーションを再発明し、人が人を想う社会を創る」が、我々のビジョンです。いろいろなものが価値化されていく中で、音声によるコミュニケーションはまだまだ取り残されたままと考えています。AIとボイスとクラウドの三つの軸を掛け合わせたサービス事業を展開しており、AI搭載のIP電話「MiiTel」というサービスをご提供しています。
 主に電話営業やコールセンターなど顧客対応の用途にご提供しているクラウド型の電話サービスで、電話ができるだけではなく、電話をした内容をクラウドサービスに自動的に保存する機能を持っています。そして自社開発の音声認識エンジンを使ってテキスト化をしながら、電話の内容や会話を解析し定量化する機能を持っています。
 電話を通した商談や会話などで問題となるのは、どういった情報を交換したのか、どういったことを聞き取ったのか、記録に残らないという点です。保存された音声データに対して会話を分析して見える化をすることによって、会話の当事者以外の人たちにも商談や会話の内容を共有できるようにすることが我々のサービスになっております。


会話する人の心、会話の雰囲気も見える化をする感情表現の実現


― 音声のテキスト化は今では認知された機能ですが、「顧客との会話」を対象とする御社のAIにはどのような特徴があるのでしょうか?

橋本:

 一つ目は「音声認識」ですね。図1の画面例では、例えば営業担当者と顧客の会話において、営業担当者が話した言葉、顧客が話した言葉を吹き出しの形で書き起こすことができるようになっており、会話の様子がすぐに分かるようになっています。
 二つ目が「音声感情認識」で、書き起こしたテキストを見るだけでは会話の雰囲気までは捉えることができません。そこで我々は、音声からその話した人の感情を推定するAI機能を開発しています。図2が画面例ですが、上下にバーコードのように色がついているものがあると思います。青色の部分がポジティブな感情、オレンジ色の部分がネガティブな感情とAIで判定された部分です。このケースは、下側がお客様で、上側が営業担当者の会話音声を示しています。お客様から製品のクレームについてご報告があった時の会話を可視化したもので、そのためお客様は終始ネガティブな反応を示しています。会話のテキストとしては丁寧な言いまわしになっていたとしても、口調や声の大きさなどの要因をネガティブとしてAIの方で検知されます。


― 会話が可視化されると、会話そのものが変わって見えますね。テキストの観点では何か特徴はあるのでしょうか?

橋本:

 テキスト認識の点でも開発しており、「トピック判定」というものです。会話の中ではいろいろな話題が推移しますが、いつ、どのような会話がされていたか、話題を特定する機能です。あと、通常の音声認識だと、会話に含まれる不要な表現、例えば「あっ」とか、「え~と」とか、不要な発話部分を除去する「フィラー除去」も行いながら、重要な発言、要注意の発言などを特定、要約する「対話要約」機能も持っています。これら意味を持たせた音声・テキストを可視化するAI機能を開発しております。



― 定量化が難しい感情を判定する部分は、開発が難しかったのではないでしょうか?

橋本:

 そうですね。通常、音声感情認識は、音声のデータから感情推定する処理を行ないます。音声感情認識機能については、筑波大学と共同研究開発をしています。アルゴリズムとして特徴的なのは、音声の特徴量に加え、発話した内容であるテキストの特徴量も考慮しており、音声の特徴と会話の内容、この二つの情報をインプットとしてディープラーニングを使って感情を推定するアルゴリズムを開発しています。二つの情報を使うことによって、より正確な感情の推定ができるようになったところが大きなポイントです。


― 感情認識の機能ではどのような感情を認識することができるでしょうか?

橋本:

 ビジネスシーンにおける対顧客との会話なので、怒っている、喜んでいる、不快に思っているなどを対象にしています。平常時の状態を中心に、これらの感情をとらえながら、ポジティブな状態か、もしくはネガティブな状態か、に分けて評価しています。


― 例えば滑舌が悪いとか方言や訛りなど認識できない部分があると思うのですが、対話特有のデジタル化が難しい部分はどのようにクリアされてきたのでしょうか?

橋本:

 まさに、お話しされたことを意識しました。例えば、怒っている時に言いやすい言葉とか、文末の表現など、感情によって言いやすい言葉が実際にあります。そういった特徴をうまく捉えるため通常は音声だけの特徴量を使うのですが、さきほどお話しした通り我々は音声認識したテキストの情報を使っています。また、音声認識はいつも安定した音声認識結果が出力されるわけではないです。音声認識の学習には、非常に落ち着いた丁寧な口調や、ニュートラルで安定した音声で話しているデータが多く、非常に強い感情や、滑舌が悪いデータが学習データに含まれることは少ないです。そこで我々の音声感情認識は学習に含まれにくい音声の特徴量をうまく捉えようとするアルゴリズムの設計になっています。これは、怒っている人は早口になったり、声が大きくなったり、そもそも言っている内容が文章としてでたらめだったりすることがあります。そうすると、音声認識しにくく低いスコアになりますが、これらを特徴量として使っています。感情がこもって、訳の分からないことを言っているものは、逆に見れば何らかの強い感情が発動している可能性があると、ディープラーニングで学習をして音声感情を推定する性能を上げ、精度を上げるようにしています。綺麗に文章となっているところも使いますし、音声認識としてうまく認識できない部分も、その感情の推定にうまく考慮できるようなモデルを我々の方で開発をしています。


― すごく面白いですね。音声認識では捉えられないところが、意味あるデータに生まれ変わるのですね。
  御社は営業やコールセンターにおける会話データを多くお持ちと思いますが、それらをインプットデータとして利用しているのでしょうか?

橋本:

 その部分に関しては、ドメイン毎にモデルを切り替えることはやっていません。ただ多くの場面が、会社対会社の対話や、会社対お客様との対話なので、非常にフォーマルな話し口、話し方になっている、という特徴はあります。例えばご家庭で家族と話すとか、学校で友達とおしゃべりする、そのようなテキストではないという点では特徴的ではありますが、もっと細かい分野で絞り込んでいるっていうことは全くないですね。


― より多くの学習のため、AIの開発環境や学習用の計算機のパワーでは苦労された点は多かったのではないでしょうか?

橋本:

 こういった言語処理の研究には大きな計算機のパワーが必要です。機械学習の研究をより柔軟にやるためにいくつかのクラウドサービスの利用を考えましたが、候補に挙がったのがABCIです。非常にパワフルなコンピューティング環境をリーズナブルにご提供していただいている点が、非常に大きなポイントでした。
 あと事業として開発するだけではなく、我々はスタートアップの会社ですがアカデミックとしての研究活動も推進しています。その観点でも、多くの研究者の方が使っているABCIは、親和性の観点でも評価しております。


会話の見える化、感情の見える化、そしてその次は


― 2022年末から米国で話題になっている大規模言語モデルがニュースなどで取りざたされていますが、大規模言語モデルについて何かお考えおありでしょうか?

橋本:

 そうですね、LLM1の事前学習モデルを活用していくところは、今取り組んでいる最中です。特に対話要約や、実際にコミュニケーション支援のためのエージェントなど、例えばコールセンターなどに電話をかけた時に、「今回のお問い合わせ内容で、1番は何々の要件について、2番は何々の要件について、ご希望のご用件はなんでしょうか? プッシュボタンを押してください」と自動対応するIVR2のようなエージェントの研究開発を進めています。そのような対話するエンジンとして実際に活用できる、しかもかなり高いレベルで実現できるようになってきているのが、実際に起きている変化だと思っています。僕らのサービスは、音声によるコミュニケーションをデジタル化してアーカイブするところが、まず基本的にあります。これらの溜まってきたデータに対して、その中に含まれている情報の価値化や、集められたデータを元にしたエージェント、例えば対話するエージェントや自動応答してくれるエージェントなど、新しいAIの形、新しいコミュニケーションのスタイルを作り出すところに取り組んでいます。


― 御社のサービスの今後については、どのようなところをビジョンとして捉えているのでしょうか?

橋本:

 DXというキーワードがここ数年叫ばれていたと思います。DXは本質的には、アナログのデータをデジタルにするところが最初に重要な点と思います。次に、データ化して保存するだけでは十分ではなく、それをプラットフォーム化して、そのデータをいろんな人が使える環境を作ってあげることが二番目に必要だと思っています。三つ目は、そのデータプラットフォーム化されたものをより便利に活用するために、AIの存在をなくしては、DXは完成しないと我々は考えています。
 我々のサービスに置いてみると、音声というその場限りの流れていく情報をデジタル化してアーカイブする。それをプラットフォーム化します、これがこれまでの「MiiTel」というサービスでした。そのプラットフォーム化したところに、さらにAIでより便利にアクセスする、もしくはそこに含まれている情報を抜き出してきたりとか、検索をしたりとか、より容易に可視化することが出来るインターフェースが出てきたのが今年だと思っています。まさに音声の大量のデータを我々は持っていますが、その大量のデータをお客様がAIの力を使って、よりデータの活用を促進させることができると考えています。まさにこれからAIを使ったさらなるデータの活用に我々のサービスが発展して行くのではないかなと期待しています。


― 話題になっているAIの機能や性能は、やはりインパクトが大きいですね。

橋本:

 そうですね、産総研さんも気にされているのではないでしょうか。私も自然言語処理が元々専門なので、アカデミックな立場から言うと、話題のAIと同じもの、超えるものをどうやって作っていくのか? というところに焦点が行っていると思いますし、ABCIを使ってそういったAIに相当する、もしくは超えていくものを作れないのか、という話になると思うんですね。ただ一方でビジネスサイドからすると、LLMを使って新しいサービスを作りたいですね。新しい価値や、新しいデータの活用の仕方、そういったものをお客様に届けることが、我々の置かれている立場かと思っています。


新しいアイデアやサービスが出てくるABCIであってほしい


― ABCIを実際にご利用されて、ABCIの良かった点やこうして欲しいといった点など、ご意見ございますか?

橋本:

 良い点は、非常に高性能なGPU環境をご提供していただいているのが、僕らとしては非常に嬉しいところです。また価格も非常にリーズナブルで、スタートアップベンチャーとか、まだ収益がなかなか上げられない会社にとって非常に強力な力になっていると考えています。これらの点はすごくいいなと思っています。
 一方で、僕らとして困る部分は、時々メンテナンスで大規模に止まるとか、販売されるポイントが12月ぐらいで今期の販売が終了となり、次にスタートするのが次年度初めとなると、空白期間がやっぱり大なり小なり生まれてくるのは、ビジネスサイドから見るとちょっと困ります。この部分がもう少し安定稼働してくれると非常にありがたいと思います。しかし、営利企業としてサービスをご提供しているわけではないところは重々承知しているので、その部分は差し引いても非常にメリットが大きいところがあると思います。


― ご指摘ありがとうございます。ABCIもしくは産総研への期待や要望などおありでしょうか?

橋本:

 今後の日本の産業界を盛り上げていく上で、スタートアップの存在や若い人たち、特に学生さんでも起業する人が増えてきているので、そういう若い人たちの新しいアイデアや、若い人たちをできる限りサポートできるようなプログラムの位置づけでやっていただけると、私、個人の意見としては良いのかなと感じています。一産業界とかの見方ではなく、どういう人たちをサポートして日本を盛り上げていくのか、産総研としてメッセージしていただけると嬉しいと思います。
 例えば我々の会社もそうですし、若い研究者の方々がABCIを使って、どんどん良い成果やグローバルで通用するようなサービスとか、研究成果を出してほしいと思っています。出てきた成果や結果に対してABCIが貢献していることを、利用者が積極的に発信することで、世の中に知ってもらえる機会が増えてほしいと思います。


― 貴重なお話、ありがとうございました。


株式会社RevComm https://www.revcomm.co.jp/


  1. Large Language Model:大規模言語モデル。大量のテキストデータを使ってトレーニングされた自然言語処理モデルのAIで、人間のような自然な回答ができるようになり、対応範囲の広さや精度の高さから大きな注目を集めている。 

  2. Interactive Voice Response:自動音声応答システム。AIを搭載した自動応答機能の1つで、主に企業やコールセンターなどで使用される電話での自動応答システム。