Googleは、テキスト入力からビデオを生成する印象的なAI搭載ツールを作成します / Google

メタとの足跡をたどって、Googleは新しくて印象的なAI搭載ツールに乗ることに決めました。これにより、テキスト入力が提供された後に素晴らしいビデオが生成されます。

そして、多くの人がメタのマーク・ザッカーバーグがこの点で唯一の人だと感じていましたが、まあ、ここにあなたのためのいくつかの素晴らしいニュースがあります。

この決定は、Google Brainと呼ばれるGoogleの非常に評判の高いAIラボに取り組んでいる同社の研究者が、彼らのビデオを公開したときに行われました。この非常に革新的なツールは、古典的な静止画を超えて行く最もリアルなクリップを作るように設計されています。そして、最終的な結果は、すべてのフレーム内で非常に一貫性を保つ最高のクリエイティブビデオです。

最近の論文で、Googleは、それは本当に認められ、高く評価されるべきものだと言います。それは素晴らしい品質の最高のビデオと、制御可能性の素晴らしい形を持っているものを作り出すことができます。最終的な結果は非常に多様なビデオと、さまざまなスタイルで発生するテキストアニメーションのバケツロードです。これは、3D オブジェクトの多様な世界を理解するための優れた形式です。

平均して、5秒の長さで1280 x 768の解像度を持つビデオを生成できるデバイスについて話しています。フレームは、1 秒あたり 24 で実行するように設定されています。このプログラムは、この種の静止画やビデオをよりよく理解するためにコンピュータモデルを訓練する明るい研究者のおかげです。

これらは、テキストの説明を使用してラベル付けされています。完璧な複製は、適切なテキストプロンプトが提供された後、ビデオの形式で実行されます。モデルは、ビデオデータと画像の両方でトレーニングを行います。しかし、これらの結果は文字通り完璧とはほど遠いことを忘れないでください。

Googleが最近何度かアップロードした後、モデルが複雑な形の動きを処理できないことを目撃する機会を得ました。たとえば、パンダが竹のショットを食べたり、船が海上を航行しているビデオは理解するのが難しかったです。

しかし、その概念はさておき、私たちはこれがそこにあるビデオ制作の最良の形態であると感じています。ビデオの作成に1分未満の速度について言及しましたか?

Googleが、使用されている技術の正確なタイプに関するプロジェクトの詳細を公表することを控えていることは明らかです。私たちは、ツールが偽物、有害、さらには明示的なカテゴリに属するコンテンツを作成するのを阻止するために、非常に多くの保護手段が提示されているのを見ています。

モデルが限られたデータセットでトレーニングされたため、ステレオタイプに関する大きな懸念があります。暴力的で軽蔑的なコンテンツの多くがフィルタリングされるという証拠はありますが、さまざまな形の偏見やステレオタイプさえも忘れることはできません。それらは時々検出して削除するのが難しいかもしれません。

したがって、Googleは結果に100%満足しているわけではなく、そのような問題が取り除かれた後にのみ適切な起動を実行したいと考えています。

おすすめ

グーグルの親会社アルファベットは、2020年第2四半期に初めて収益の減少を見ている / グーグル

グーグルはPlayストア/グーグルのための新しいAI機能の発売でアプリ開発者を興奮させます

グーグルストリートビューで訪れる6息をのむような場所 [ビデオ] / グーグル