You are currently viewing マイクロソフトは、現実的な音声を生成できる音声合成人工知能を作成します。

マイクロソフトは、現実的な音声を生成できる音声合成人工知能を作成します。

テキストから音声への変換は時間とともにスマート化していますが、自然なサウンドの製品を構築するには、トレーニングに余分な時間とリソースが必要になる点が欠点です。

音声サンプルを 200 個しか使用して現実的な音声を作成できる音声合成 AI を作成したため、より効率的なプロセスが必要になる場合があります。

それは同様に一致する転写を作成することができる。

Alは、脳内のニューロンに大まかに従うトランスフォーマーまたはディープニューラルネットワークの一部を計算します。

トランスフォーマーは、システムが複雑な文章を非常に効率的に操作するのに役立つシナプスリンクのように、すべての入力と出力をリアルタイムで考慮します。

ノイズ除去エンコーダと組み合わせることで、音声合成AIをより効果的にします。



結果は、わずかなロボットサウンドがまだ問題を引き起こしているほど完璧ではありませんが、ほぼ100%の単語の伝在性で非常に正確です。

特に、小規模企業の手の届くところに届けば、誰にとってもテキストから読み上げやすい可能性があります。

「私たちは、音声合成と自動音声認識のためのほとんど教師なしの方法を提案しました。この方法は、自動エンコーダの解除、二重変換、双方向シーケンスモデリング、上記コンポーネントを組み込む統一モデル構造など、いくつかのキーコンポーネントで構成されています。単語レベルの分かりやすいレートで99.84%、TTSの場合は2.68 MOS、AsRの場合は11.7%を達成し、LJSpeechデータセット上の200のペアデータを使用して、当社の方法の有効性を実証することができます。さらなる分析は、私たちの方法の各コンポーネントの重要性を確認します。さらに、「今後の作業では、他の事前トレーニング方法の助けを借りて、純粋に対していない音声とテキストデータを活用することで、教師なし学習の限界に向かって推し進めます。また、WaveNetなどのグリフィン・リムの代わりに、ボコーダーの高度なモデルを活用して、生成されたオーディオの品質を高めます。

写真: ゲッティ イメージズ