You are currently viewing マイクロソフトの新しいAIの進歩は、3秒のオーディオクリップから人々の声を複製することができます / マイクロソフト

マイクロソフトの新しいAIの進歩は、3秒のオーディオクリップから人々の声を複製することができます / マイクロソフト

AIテクノロジーの力を過小評価することは決してできず、音声クローニングに関連するMicrosoftからのこの新しい進歩は間違いなく一見の価値があります。

ソフトウェアの巨人は、人工知能を利用したテクノロジーを使用して、わずか3秒の長さのオーディオクリップから音声を複製することについて話しているのが見られました。この新しいプログラムは吹き替えられており、最高のテキストスピーチ制作を可能にするように設計されています。

マイクロソフトの研究者は、60人近くの異なる話者からの英語で約7000時間のオーディオブックナレーションを聞くことができる機能を作成したことを強調しました。全体的なアイデアは、非常に人間のように聞こえるスピーチを再現することです。また、このサンプルは、通常のテキスト読み上げアプリが構築されているのを通常見られるサンプルのほぼ数百倍であることを忘れないでください。

最近、デモなどを通じてWebサイトで新しい進歩について言及しているのが見られたMicrosoftチームによって言及されたように、それは実際には本当にクールで革新的です。

そこにある最短のオーディオクリップを通して人の声を複製する機会を得ており、複製された声を操作してあなたが望むことを言うのを助ける機会も与えられています。そして、それが十分にクールでない場合は、声の感情を複製したり、さまざまな話し方で話すようにプログラムしたりすることもできます。

音声のクローン作成は、この世界では新しいものではないことに同意します。ただし、Microsoftが採用したアプローチは、このような短いオーディオスニペットを使用して音声を複製するのが非常に簡単になるため、非常に際立っています。そのようなテクノロジーがサイバー犯罪につながっているのは理にかなっているだけで、Microsoftはこれが大きな脅威であることを知っています。

チームは、オーディオクリップがVALL-Eテクノロジーを使用して作成されたかどうかを区別できるものを作成することがどのように可能であり、潜在的に素晴らしいアイデアであるかについて言及しました。それは本当に私たちが感じる大きなゲームチェンジャーになる可能性があります。

マイクロソフトはさらに、このテクノロジーは個別のトークンの形で音声を解読し、さまざまな種類のテキストと話すようにそれらを作り直すと述べています。それぞれの音響トークンは、3秒の長さの録音のようなものを引き受けるようにさらに調整され、ニューラルコーデックデコーダーを使用して最終波形を作成するために使用されました。

このタイプのテクノロジーは間違いなく完璧ではありませんが、多様で革新的であり、音声テキスト変換のこの分野で行われてきたこととは確かにユニークです。