Googleは見事にフォトリアリズム/ GoogleとテキストをペアにするAI画像ジェネレータ「イメージン」で公開

あなたが技術ニュースを最新の状態にしたり、技術に精通していると見なされるのが好きなら、有名なDALL-E 2 AI駆動の画像ジェネレータがTwitterで非常に多くのヘッドウェーブを作っているのを見たことがあるに違いありません。

そして今、画像ジェネレーターに関する概念は、GoogleがAIを搭載した画像ジェネレーターに与えられた別の名前で公開されたばかりなので、世界中でトレンドになっているようです。しかし、Googleが関与すると、今日の現代技術を念頭に置いて、もう少し洗練されたものを想像することができます。

検索エンジンの巨人は、Imagenがフォトリアリズムと言語の包括的な理解を組み合わせて、両方の長所を提供する方法を宣伝しました。

同社のAIリーダーが見事に説明しているように、このようなAIを搭載したシステムは、コンピュータと人間の介入からデジタル創造性の新しい世界を解き明かすことができます。そして、GoogleのImagenはそれをシームレスに行うことに成功している。

同様に、このプロジェクトがGoogleが想像していたものとまったく同じであり、多くの試行錯誤の後、新しいタイプのリアリズムを追加するためにテキストを写真で拡散させることを思いついた同社の研究部門のおかげです。

全体として、これは非常に現実的な努力ですが、実際の成果は一連の芸術的ライセンスを通じて測定することができます。

ユーザーが期待できることをよりよく理解するために、同社は、テキストを理解し、それを画像制作とマージする巨大なスケールトランス言語デバイスの力を通じて、Imagenがどのように輝きを引き出すかについて言及しました。

最後にある主な発見は、モデルがテキストをエンコードし、それに応じて相対画像を生成できることに関連しています。また、Imagen の言語モデルのサイズを大きくすると、単に画像拡散モデルを大きくするよりも、画像とテキストの配置が改善されます。

しかし、古いことわざにもあるように、見ることは信じることであり、それがすべてどのように機能するかを本当によく理解するために、同社は最近、テキスト画像モデルを最もよく評価できるベンチマークのために予約された名前であるDrawBenchを作成しました。この方法を通じて、Googleは新しい進歩ができることを世界に証明することを望んでいました。

そして、そのとき同社は、人間の評価者がImagenの大ファンになり、同時に比較することで他の同様のデザインモデルよりもImagenを好むようになったことを明らかにしました。このテキストでは、画像とテキストの配置と、使用されたサンプルの品質の両方を考慮しました。また、評価に使用した一般的なモデルには、DALL-E 2、VQ-GAN、潜在拡散も含まれていました。

同様に、Googleは、指標が「Imagen」の優れた機能を証明するのにどのように素晴らしい仕事をしているか、そしてユーザーの要求を理解するときにどれほど優れた仕事をしているかについて話しました。これには、めったに使用されない用語、長い形式のテキスト、さらにはユニークな空間関係の理解が含まれます。

一方、同社が語るもう1つの大きな進歩は、より速い収束速度は言うまでもなく、より大きなメモリ容量を持ちながら、詳細を計算するという点でより効率的であるU-netアーキテクチャのフロントに関連しています。

現時点では、Googleは特定のコードをリリースしておらず、Imagenに関する公開デモも提供していない。適切な保護対策を講じていないと、誤用の可能性が高まるため、同社はそれを防ぐためにできることは何でもしています。

しかし、興味のある人は、そのような多様な画像ジェネレータの利点に関するさらなる進歩を説明する完全な研究論文で、そのウェブサイトでインタラクティブなデモを見つけることができます。

おすすめ

GoogleはI / O開発者イベントでマップのためのいくつかの新機能を発表し、彼らは本当にエキサイティングに見える / グーグル

Googleの新しい検索ツールは、環境にやさしいフライト、列車のチケットやホテルを見つけるのに役立ちます / Google

製品レビューの強化を目的としたGoogleの新しい検索アップデート/ Google