【エンジニアブログ】多言語音声ソリューションについて

こんにちは。プロアクシアコンサルティングでオープンソリューション事業部に所属しています K.T です。
これまで複数の研究所で最先端技術の開発や研究に関わっており、最近は音声翻訳や音声対話の分野の研究をメインに担当しております。

今日はグローバルコミュニケーション時代における多言語音声ソリューションについてご紹介したいと思います。

音声ソリューションとの関わりについて

私自身の音声ソリューションとの関わりは、株式会社 国際電気通信基礎技術研究所 (ATR) でお仕事をさせていただいたのが音声翻訳の研究のきっかけになりました。

私が ATR でお仕事をさせていただいた時にはマルチクライアントプロジェクトが進められており、研究開発成果を参画した民間企業へ技術移転することを目的としていました。
単に学術的な研究を行うだけでなく、将来的に広く一般利用できるサービスに繋げていくところに強い魅力を感じました。

20年近く前にはなりますが、その当時の音声翻訳技術では、一呼吸 (一文) の文章の発話をリアルタイムに翻訳することが限界で、5万語程度の辞書を利用していましたが、現在では100万語を超える辞書を利用できるようになっており、翻訳精度も大幅に向上しています。

音声翻訳の現状について

音声翻訳の技術は、50年来のブレイクスルーといわれる深層学習 (Deep Leaning) の技術が導入されたことで飛躍的に進歩しました。
最近では TOEIC 900点クラスをとる人間と同等のレベルまで到達していると言われています。

オリンピック・パラリンピックに向けて総務省が政府全体として自動翻訳の導入に動き出しており、インバウンド対応で幅広く活用されることが想定されています。

自動翻訳の今後のステップの一つとして、同時翻訳の取り組みがあります。
例えば、セミナーなどで講演者が利用するコンテンツの資料から事前に学習することで、講演当日は講演内容の発話を同時翻訳できるようになるといった利用がここ数年から5年程度で実現されるステップだと思います。

技術関連などの公演では各分野の専門用語が多く利用されることもあり、未知語と呼ばれる伝わらない翻訳となる言葉の対策が必要になります。現状ではこの未知語の課題をコーパス整備により対応しようとしておりますが、今後はこの未知語対策についても研究が進められていくと思います。

プロアクシアコンサルティングで提供する音声ソリューションについて

現在弊社で提供できるソリューションは、音声認識・機械翻訳・音声合成技術です。
即時ご提供できる基本言語組合せとして4言語 (日本語、英語、韓国語、中国) あり、他も加えて約10言語まで対応が可能です。

ソリューションに関して,ひとつづつ特徴を説明しますと、

音声認識

マイクを通じて収集された音声信号からテキストにする技術を基本としています。
音声認識技術の精度向上には、環境雑音を除去してクリアな音声データにする技術や、発話区間を自動的に検出する技術などがあります。

社外のソリューションでは、特定の発話者の音声を増幅させ取得するマイクロフォンアレーの技術も音声認識技術には必要でこれらを状況により組み合わせて精度を向上させることができます。

機械翻訳

以前主流であった統計翻訳 (SMT) から深層学習型のニューラル翻訳 (NMT) に切り替わったことにより、より人間らしい翻訳ができるようになりました。近年の研究で、サブワードという単語をさらに細かく分割することで、辞書に登録されていない未知語を減らし、対策がしやすくなりました。

例えば、オリンピックの体操競技で今までにない新技が披露されたときは、以前では人手で対策が必要でしたが、現在ではある程度推測した結果で翻訳することができるようになりました。

この新技のような固有名詞の対訳辞書をチューニングすることで精度を向上させることができます。

音声合成

音声合成をするための Voice Font については、実際に音声を利用するロボットやアバターなどのキャラクターの外観などに合わせて、声色を調整することができます。

音声ソリューションを利用した実績について

「ロボットが世界中の会話をつなぐ」と称し、複数の中小企業様で音声認識・音声合成を導入いただいて、ホテルや美術館でのロボット案内の利用実績があります。

<事例情報>
「すみだ北斎美術館」の常設展示室にある案内ロボットを、株式会社プラネックスと独立行政法人 東京都立産業技術研究センターが共同で研究開発
https://tiri-robot.jp/case/planex/

それ以外にも、音声ソリューションの応用例として、音声認識技術をベースに日本人適応した英会話の発音診断システムを開発して、英会話学校や大学中等部などでのご利用いただいている実績があります。

音声ソリューションと人口知能(AI)、機械学習(ML)、デジタルトランスフォーメーション(DX) との関連について

音声ソリューション自体は、AI・ML・DX と深く関わります。事例で紹介した発音診断は特に顕著な例です。

従来英会話学校では生徒の英会話レベルについて講師が評価を実施しているため、どうしても定量化した評価が難しい面がありました。この部分をDXすることを検討した結果、ML で過去のデータを基に機械が学習し、AIでの自動採点ができるようになりました。

また、エンタープライズの領域においては、リモートにおける作業連携・支援・コミュニケーションの分野での DX に役立つと思います。

コロナ禍でリモート会議が普及してきており、この分野でも音声翻訳の機能で多国籍メンバーとの会議を支援できます。単に音声を翻訳するだけでなく、非言語の情報 (感情の起伏・表情・声色・心拍(瞳孔から推定)など) を取り込んで活用することも考えられます。

翻訳以外にも、会話内容を文字化して自動で議事録を作成するなどの取り組みもされており、手動で文字起こしをするより 1/3 程度の見直し工数で作業を完了できるので、実用レベルになってきました。

どの様なことを検討されているお客様に役に立つか

音声やテキスト情報を用いて作業工数の削減を検討されているお客様に活用いただけると思います。事例で紹介いたしました、発音診断はこの分野での活用事例になります。

最近高齢者の見守りでもロボットへの活用も増えてきております。そういった分野でも会話機能や、会話から得られた情報の解析などでご利用いただけます。

さらには音声や映像を利用して疲れやストレスを診断をするような会話AIのようなソリューションにもご利用いただくことができると考えております。ここではアバターを利用した雑談問診を実施することで、ストレスを低減しながら、会話や疲れを専門家に分かるようなカルテのような情報に落とし込むなどの業務でも音声ソリューションはご利用いただけます。

音声技術で難易度が高いものは

音声認識や機械翻訳を実用レベルに向上させていくのは難しいことがらです。
人間でも音声から文字起こしをする際に間違えることがあるように、AI であっても同様に間違えは発生します。これが導入する際の障壁になる場合はあります。
この場合の対応としては、間違いやすいものを見つけ出して是正することを繰り返すことで、AI の精度を向上させていきます。

それ以外では、一つのマイクで複数人の音声を入力した場合に、話者を特定するのは技術的に難しいです。特に話している人の発言を遮るように、別の人が発言した場合など話者を特定するが大変難しい所です。

こういったまだ未解決、課題になっていることも今後のテクノロジーの進化、研究によって克服され商業利用される日も遠くはないと思います。日進月歩のチャレンジが楽しみです。

お客様のご要望を実現するために

まずは、PoC を行うことで評価と課題をお客様と整理していきます。
その際、お客様のデータを利用することで、実用に耐えるかや導入することでメリットを出せるかなど評価いただくことができます。評価の方法についても、併せてご提案させていただきますので、お客様としても判断がしやすくなります。

プロアクシアコンサルティングと協業をすることのメリット

何でもかんでも AI に任せるのではなく、人間が業務負担になっている部分をAIで肩代わりすることで、仕事をし易くすることをモット―にしています。ですので、AI による失業ではなく、AI を導入することで業務負担の軽減となる答えを見つけていけることがメリットです。

その上で、AI を導入することで新しい気づきを導き出し、今までの課題より一歩進んだところまで持っていくことを一緒に検討していきます。

AI を導入することで失敗するケースも耳にしますが、その多くが AI でできることが正しく理解できてないことに起因していると感じます。AI で解決できることを正しく説明し、ご理解いただいたうえで、関係者で合意形成しながら進めていくことをこういった問題は防げると思います。

今後どのようなことを提供していきますか

オンライン環境の意思疎通を多言語を含めてスムーズに行えるようにするソリューションを考えています。
それは、オンライン会議だけでなく、カウンセリングや面談などコミュニケーションの中に生かしていきたいと考えています。