You are currently viewing Googleは画像ジェネレータに別のテキストに取り組んでおり、それはかなりクールです/グーグル

Googleは画像ジェネレータに別のテキストに取り組んでおり、それはかなりクールです/グーグル

Googleのテキストから画像ジェネレーターへの変換は非常に便利で、人々がテキストプロンプトを高品質の画像に変更するのに役立ちます。GoogleはすでにImagenと呼ばれるテキストから画像へのジェネレータを持っていますが、Imagenと並んで、Googleが実際にImagesまたはPathways Autoregressive Text-to-Imageと呼ばれる別のテキストを画像ジェネレータに持っていることが明らかになりました。このジェネレータは、フォトリアリズムのためにあらゆる努力をしますが、生成モデルの異なるファミリを使用することによってそれを達成します。

テキストを画像に変換するために、Partiは自己回帰モデルを使用し、Imagenは拡散を使用してランダムなドットのパターンを画像に変換します。Partiはまず、画像のコレクションをパズルのピースと比較できるコードシーケンスに変換します。次に、ユーザーによって指定されたテキストプロンプトがこれらのコードシーケンスを使用して翻訳され、新しいイメージが作成されます。写真を生成するこのシステムは、既存の研究とPaLMのような大規模な言語モデルの構築によって与えられた利点を利用しています。これは、長くて複雑なプロンプトの処理に役立つため、このアプローチにとって重要です。さらに、高品質の画像を生成するのにも役立ちます。

Googleはまた、Partiが世界の知識を反映した長くて複雑なプロンプトを管理し、特定のフォーマットやスタイルを持ち、きめ細かい詳細やいくつかのインタラクションを含む多くのコンポーネントを持っていることを発見しました。安全のため、Googleはさらなる保護対策が講じられるまで、Partiのモデル、データ、コードをリリースしないことを選択しました。また、クレジットの盗難を防ぐために、ジェネレータによって生成されたすべての画像は、Partiという名前の右下隅に透かしを入れています。

しかし、問題は、Partiのようなモデルは、異なる背景の人々、仕事などの人々に関するバイアスを主に含む特定のタイプのデータセットで訓練されているため、これらのタイプのモデルは一般的に偏っているため、主にステレオタイプ化されたものについてプロンプトが出されると、結果もステレオタイプになります。たとえば、結婚式の場合、ユーザーが結婚式のプロンプトを表示すると、結果として得られる写真は西洋の標準を参照した写真になります。