グーグルの新しいAI書き起こし機能 – 翻訳ウィズ / グーグル

投稿日：2020年8月27日

1月は、Android上でのGoogle翻訳の発売をマークし、フランス語、ドイツ語、ポルトガル語、英語、タイ語、ヒンディー語、スペイン語、ロシア語を含む8つの言語の間の翻訳を書き起こしました。

この機能により、Google翻訳ユーザーは翻訳された音声をテキストに書き起すことができます。ジッフィーで!リアルタイムの多言語転写は、それが聞こえるよりもはるかに複雑です!単に書かれたテキストをある言語から別の言語に翻訳したり、単一の文章を入力して別の言語でテキストに変換したりするのとは大きく異なります。

以前は、翻訳は、会議や講義やストーリーテリングセッションのような長い議論を書き起こすものではありませんでした。しかし、この問題は、最近発売されたAI駆動の転写機能を通じて解決され、即興で解決されました。今のところオーディオファイルでは動作しませんが、スマートフォンのマイクを介してライブオーディオをキャプチャする必要がありますが、Googleはスピーカーを介して録音されたオーディオを再生し、そのようにキャプチャすることを提案しています。

この機能はまだiOS Google翻訳アプリでは利用できませんが、Androidユーザーのために、行う必要があるのは、Google翻訳アプリのアップデートをインストールし、「書き起こし」オプションを押し、ソースとターゲットの言語を選択し、マイクボタンとスタートをタップすることです!

それは実際に簡単です!

メカニズムの基本原則は、聴覚障害者のユーザーにリアルタイムのキャプションサービスを提供するGoogleのライブトランスクリベ機能に基づいています。Googleライブ書き起こしとGoogle翻訳のトランスクリプト機能の両方は、Googleクラウドとそのテンソル処理ユニット(TPU)によって駆動されているので、転写はデバイス上では起こりません。

Googleの書き起こし機能は、TPUハードウェアと連続して起こるGoogleのリアルタイム翻訳の組み合わせに基づいており、基本的にはリアルタイムの自動音声認識システムの上に機械翻訳を積み重ね、システムが認識可能なトランスクリプトへのすべてのアップデートに対して新しい翻訳を生成できるようにします。

ライブ書き起こし機能は、自動音声認識に役立つのと同じ技術に従っており、YouTube動画やGoogleスライドのプレゼンテーションにも自動キャプションが提供されます。このトランスクリプション機能は、オーディオが進むにつれて文全体を常に評価し、句読点を追加し、文の文脈を測定しながら特定の単語の選択を修正し、アクセントや地域の方言のようなものを即興で行います。

これらすべての追加の利点を通じて、ユーザーは言われていることの正確な近似を得るでしょう、これはそれ自体ではかなり驚くべき偉業です!

そうは言っても、Google翻訳トランスクリベはごく最近発売されており、驚くべき有望な初期結果にもかかわらず、正直なところ、Googleから、世界は完璧しか期待していないので、常に改善の余地があります!だからこそ、我々は時間の経過とともに高機能、はるかに改善された基礎となるAIモデルを期待し続ける理由です。