You are currently viewing Google AIチームは、そのオーディオレコーダーアプリがオンデバイスの機械学習を活用する方法を説明します / Google

Google AIチームは、そのオーディオレコーダーアプリがオンデバイスの機械学習を活用する方法を説明します / Google

今月初め、Pixel 4のは古いGoogle携帯電話でも利用できるようになっていました。同社は現在、オンデバイス転写ツールの背後にある機械学習について説明しました。

投稿には、Recorder アプリを作成する根拠が記載されています。音声は最も効果的なコミュニケーション方法ですが、それをキャプチャして整理するための十分な方法はありません。同社は、アイデアや会話を検索しやすくし、アクセスできるようにしたいと考えています。

Googleによると、過去20年間で、彼らはテキスト、ビジュアルコンテンツ、地図、ビデオ、さらには仕事の形で検索を容易にしました。それでも、重要な情報のほとんどは、会話、講義、インタビューなど、音声の形で記録され、共有されています。記録の時間から必要な情報を抽出することはしばしば困難であるが。

レコーダーアプリは3つの部分があります。今年3月にGboradで初めて導入された自動音声認識モデルは、全神経オンデバイスシステムに基づいて構築された転写によって動力を与えられています。Androidキーボードには「より速い音声入力」が含まれており、ダウンロード後にオフラインで作業し、文字ごとに文字を書き起こすことができます。

レコーダーに時間の長いセッションを記録することができ、タイムスタンプへの単語のマッピングは音声認識モデルによって計算されました。これにより、ユーザーはトランスクリプトから自分の好みの単語をクリックし、彼らがしたい場所から聞くことができます。



テキストは情報を提示するのに便利な形式ですが、時には視覚的で音が便利です。波形のバーは50ミリ秒で、その期間の支配的な音で着色されています。

オーディオは、色付きの波形で表示され、各色が異なるサウンドカテゴリを識別します。畳み込みニューラル ネットワーク (CNN) を使用して、既に公開されているデータセットと比較してサウンドを区別し、各オーディオ フレームを分類します。

また、Google では録画が終了するたびに 3 つのタグが許可され、そのタグを使用して、日時を使用する代わりに動画のタイトルを作成できます。これは、レコーダーがそれを転写する際にコンテンツの種類を認識するのに役立ちます。