2人によると、Googleの研究者は最近、世界中から、そしてInterspeech 2019で簡単に複数の舌を書き起こす多言語音声パーサーを発見しました。 Googleの研究者は、ヒンディー語、マラーティー語、ウルドゥー語、ベンガル語、タミル語、テルグ語、カンナダ語、マラヤーラム語、さらにはグジャラート語を含む9つの異なるアジア言語を認識できる、そして同じAIでも自動音声認識の質が新しい改善を示すことができることを明らかにしました。
Googleの研究者によると、インドに焦点を当てた主な目的は、何百万人もの人々が話す20以上の異なる言語を検出できる本質的に多言語を持つ社会だからです。これらの言語の中には、共有文化史とネイティブスピーカーの地理的近接性のために、音響や語彙のコンテンツと重複するものもあります。インド人の大半はバイリンガルまたはトリリンガルであり、単一の会話内で複数の言語を使用することはインドでは一般的な現象であり、これは多言語モデルをより効率的に訓練するのに役立ちます。
多言語モデルでは、研究者は何とか音響、発音、言語コンポーネントを単一の製品に組み合わせます。Googleの研究者は、何らかの不正行為や間違った翻訳を避けるために、トレーニングデータの現地言語から派生した外部信号である追加の言語識別子入力を含むようにシステムアーキテクチャを変更しました。グローバル言語別モデルを微調整し、システムの全体的なパフォーマンスを向上させるために、研究者は残留アダプタモジュールの形で言語ごとに追加のパラメータを割り当て、多言語システムが他のすべての単一言語検出システムをかなり上回り、Google Assistantのようなデジタルアプリケーションのすべての要件を満たすトレーニングとサービスを簡素化しました。
要するに
Googleは、常にユーザーの快適さのためにいくつかの新しい技術を提供しようとする最大の企業の一つであり、この新しい技術に関するフィードバックに基づいて、Googleが他の様々な言語を検出し、多様なユーザーを支援できるように、多言語ASRについてより多くの研究を続けることを願っています。この新しい多言語システムの背後にある目的は、世界の情報を整理するだけでなく、製品ができるだけ多くの言語で動作するようにすることで、ユーザーがさまざまな言語にアクセスできるようにすることです。この新しいシステムはまもなくGoogleアシスタントに導入される可能性が非常に高く、Googleによると、インタプリタモードは数十の新しい言語を翻訳し、9つの新しいAI生成の声も翻訳します。
写真: iStock