まあ、それは希望の場所のクラウドソーシングされた写真を持っており、同じシステムは、その後、3Dでランドマークや照明を複製します。また、2D画像から3D深度データを抽出するプロセスに関与する神経放射フィールド(NeRF)と、光線が終わる位置を把握するプロセスもあります。これは、それ自体がランドマークのテクスチャ3Dモデルを作成することができる成熟した技術であると考えられています。
さらに、GoogleのWild()システムのNeRFは、最初に「野生の写真コレクション」を入力として使用し、特定のコンピュータが異なる角度からランドマークを見る能力を拡大することで、さらに少ないステップを踏みます。それが完了すると、システムは、画像露出、シーン照明、ポスト処理、気象条件など、写真や環境の変化を分離するのに役立つ構造を特定します。システムはまた、ショットツーショットの違いをキャッチします – 例えば、1つの画像に人がいて、もう一方が空の場合。最終的な結果は、体積輝度を作成するためにバインドされている一過性の要素と静的な要素の混合物で構成されます。
したがって、NeRF-Wが作成したランドマークの3Dモデルを複数の角度から見ることができ、人工的には見えませんので、内部の照明システムはシーンの照明と影を修正するための輝度ガイダンスも提供します。
NeRF-Wは、画像間のオブジェクトの差異を不確定フィールドのように扱う可能性も保持しますが、それらを排除または強調解除します。しかし、一方、標準のNeRFシステムは、違いをクラウド状のアーティファクトとして表示し、画像を取り込むときに構造から分離しません。
NeRF-Wに対する両方のNeRF結果の比較ビデオを見ると、この新しいニューラルシステムが3Dでランドマークを作り出した方法は、バーチャルリアリティと拡張現実ファンの経験を高めることができ、天気や時間の変化を含め、最終的に複雑なアーキテクチャを実際に見ることができることがわかります。
3Dモデリングに実際の写真を使用することを保証しているのはGoogleだけではありません。このアイデアは、ランドマークの複数の写真と繰り返しエンコーダデコーダネットワークの助けを借りて、現実世界の場所の合成バージョンの生成に取り組んでいるインテルの研究者によって以前に試みられ、キャプチャされない角度を挿入します。
それにもかかわらず、インテルのシステムは、ピクセルレベルのシャープさと時間的な滑らかさで標準のNeRFを上回っていますが、NeRF-Wの可変照明機能や、ランダムにソースされた写真を使用して同じ実際の場所を再現する機能を提供するには不適当です。
GoogleのNeRF-Wは、ここでアクセスできる論文で詳細に議論されています。