テキストを画像に変換するために、Partiは自己回帰モデルを使用し、Imagenは拡散を使用してランダムなドットのパターンを画像に変換します。Partiはまず、画像のコレクションをパズルのピースと比較できるコードシーケンスに変換します。次に、ユーザーによって指定されたテキストプロンプトがこれらのコードシーケンスを使用して翻訳され、新しいイメージが作成されます。写真を生成するこのシステムは、既存の研究とPaLMのような大規模な言語モデルの構築によって与えられた利点を利用しています。これは、長くて複雑なプロンプトの処理に役立つため、このアプローチにとって重要です。さらに、高品質の画像を生成するのにも役立ちます。
Googleはまた、Partiが世界の知識を反映した長くて複雑なプロンプトを管理し、特定のフォーマットやスタイルを持ち、きめ細かい詳細やいくつかのインタラクションを含む多くのコンポーネントを持っていることを発見しました。安全のため、Googleはさらなる保護対策が講じられるまで、Partiのモデル、データ、コードをリリースしないことを選択しました。また、クレジットの盗難を防ぐために、ジェネレータによって生成されたすべての画像は、Partiという名前の右下隅に透かしを入れています。
しかし、問題は、Partiのようなモデルは、異なる背景の人々、仕事などの人々に関するバイアスを主に含む特定のタイプのデータセットで訓練されているため、これらのタイプのモデルは一般的に偏っているため、主にステレオタイプ化されたものについてプロンプトが出されると、結果もステレオタイプになります。たとえば、結婚式の場合、ユーザーが結婚式のプロンプトを表示すると、結果として得られる写真は西洋の標準を参照した写真になります。