GoogleのAI音声モデルは最新のアップグレードで大幅に後押しされます / Google

Googleは最近、人工知能音声モデルを改善するための継続的な取り組みに関する最新情報を共有しました。同社はこの分野で多額の資金を提供しており、ここ数か月で達成した進歩のいくつかを強調しています。

、テクノロジーの巨人のAIチームは、音声モデルを改善するためにいくつかの重要な調査分野に焦点を合わせていることを強調しました。焦点の主な分野の1つは、さまざまな用語や方言に存在する音声の多様性を処理するためのより受け入れ可能な方法を開発することでした。

Googleのもう一つの優先事項は、音声からテキストへの文字起こしのマーカーを改善することです。特に、同社は、特定の状況では大きな課題となる可能性のある文字起こしのエラーや不正確さを減らす方法に取り組んできました。

同社は今週初め、数百の話し言葉を理解できるAIグローバル音声フレームワークに関する情報を明らかにしました。このフレームワークは、300以上の言語で280億のテキストの判決と1200万時間(約1369年)の音声を使用して開発されました。

Google人工知能チームは、より良いトレーニングデータを通じて音声モデルの精度を向上させる新しい方法も模索しています。これには、さまざまなソースからの音声を認識して書き写すモデルの能力を向上させるのに役立つ、より多様で代表的なデータセットを収集する取り組みが含まれています。

これに加えて、アルゴリズムが現在直面している多くの課題があります。調査と現在の競争によると、理解アルゴリズムは、言語カバレッジとレートを拡大しながら、モデルが計算効率の高い方法で強化するために、適応性、影響力、および一般化可能でなければなりません。多数のソースからの大量の情報をアルゴリズムで使用できる必要があり、新しい言語やユースケースに一般化し、徹底的な再トレーニングを必要とせずにモデルのアップグレードを可能にすることもできます。

全体として、この分野でのGoogleの取り組みは、AIを活用した音声認識と文字起こしの改善に向けたより広範な傾向の一部です。音声ベースのインターフェイスがますます一般的になるにつれて、これらのテクノロジーは、仮想アシスタントからカスタマーサービスボットなど、あらゆる分野でますます重要な役割を果たします。

もちろん、これらのテクノロジーが悪用または悪用される可能性についても懸念があります。たとえば、法的手続きで使用される場合や、機密情報を含む会話を書き写す場合の音声認識テクノロジの精度に関する懸念があります。

これらの懸念にもかかわらず、AIを活用した音声認識と文字起こしは、今後数年間、Googleのような企業にとって主要な焦点であり続けることは明らかです。これらのテクノロジーが進歩し続けるにつれて、それらはさらに普及し、強力になり、コンピューターや相互の対話方法を変える可能性があります。

おすすめ

Google は、アルコールやギャンブル広告を制限する米国のユーザーのための新しい設定をリリース / Google

グーグル+、受信トレイ、アロ、その他多くのGoogle製品がシャットダウンし、ユーザーがショックを受けている/ Google

グーグルの「レンズ」アプリは巨大なアップグレードを取得 / グーグル