インテルラボ、テキストプロンプトから360度の画像を生成するAI Diffusion Model(AI 拡散モデル)を発表

3D潜在拡散モデル(LDM3D)は、深度マッピングを実現する業界初の生成AIモデルです。コンテンツ制作やメタバース、デジタル体験に大変革を起こす可能性が見込まれています。

ニュース

  • 2023年6月21日

  • インテル PRに問い合わせる

  • ソーシャルメディアでインテル・ニュースルームをフォローする:

    Twitter のロゴ
    YouTube のアイコン

author-image

投稿者:

最新情報:インテルラボは、Blockade Labsとの協業により開発した、Latent Diffusion Model for 3D(LDM3D:3D潜在拡散モデル)を発表しました。これは、生成型AIを使用してリアルな3D画像コンテンツを作成する、新たなDiffusion Model(拡散モデル)です。LMD3Dは、拡散プロセスを適用して深度マップを生成する業界初のモデルであり、360度の視野で鮮明かつ没入感ある3D画像を作り出します。LDM3Dには、コンテンツ制作やメタバースのアプリケーション、デジタル体験に革新を起こし、エンターテインメントからゲーム、建築、デザインと、幅広い業界にわたり大きく変革する可能性が秘められています。

「生成型AIが目指すのは、人間の創造力をさらに拡張させ増強すると同時に、時間の短縮を意図したテクノロジーです。ただし、生成AIモデルの大半は、現時点ではまだ2D画像の作成に限られ、テキストプロンプトから3D画像を作り出せるモデルはごくわずかしかありません。LDM3Dならば、既存の潜在安定拡散モデルとは異なり、ユーザーは指定のテキストプロンプトから、パラメーター数はほぼ同じままで画像と深度マップを作成できるようになります。標準的な後処理方式による深度推定と比べて、画像内のピクセルごとに相対深度を高い精度で示すことができるため、シーンの構成にかかる時間の大幅な短縮が可能です」

– インテルラボ AI/MLリサーチ・サイエンティスト、ヴァスデーヴ・ラール(Vasudev Lal)

重要な理由:閉ざされたエコシステムでは、規模も限られてしまいます。また、AIの真の民主化を目指すインテルの取り組みを通じ、AIがもたらすメリットに幅広くアクセスできるようになるのは、オープンなエコシステムがあるからこそです。ここ数年で飛躍的な進歩が見られた領域の1つがコンピューター・ビジョンの分野であり、その中でも生成AIは特に利用が広がりました。とはいえ、現時点で最も進歩している生成AIモデルであっても、大半は2D画像の作成に限られます。LDM3Dは、テキストプロンプトから3D画像のみを生成する既存のDiffusion Modelとは異なり、与えられたテキストプロンプトから画像と深度マップの両方をユーザーが作成できるようにするテクノロジーです。使用するパラメーター数はLatent Stable Diffusion(潜在安定拡散モデル)とほぼ変わりなく、標準的な後処理方式による深度推定と比べて、画像内のピクセルごとに示す相対深度の精度が高くなります。

この研究により、以前は考えられなかったような方法でユーザーがテキストプロンプトを体験できるようになり、デジタルコンテンツとインタラクティブに連動する仕組みが大きく変わると見込まれます。LDM3Dによって生成される画像と深度マップを使用して、穏やかな南国のビーチ、最新の高層ビル、SFの宇宙空間を記述したテキストから、細部まで表現する360度のパノラマ画像に変換することも可能です。深度情報を取得するこの機能が、全体のリアリズムと没入感を即座に拡張して、エンターテインメントからゲーム、インテリアデザイン、不動産と幅広い業界にわたり、さらに仮想ミュージアムや臨場感あふれる仮想現実(VR)体験まで、画期的な利用が実現します。

実現する仕組み:LDM3Dは、4億を超える画像キャプションのペアが含まれた、LAION-400Mデータベースの1万サンプルから成るサブセットで構造化されたデータセットによって学習処理を行いました。研究チームでは、以前にインテルラボで開発したDense Prediction Transformer(DPT)大規模深度推定モデルを使用し、学習コーパスにアノテーションを付与しています。このDPT大規模モデルは、画像内のピクセルごとに精度の高い相対深度を表現できます。LAION-400Mデータセットは、研究を目的に、テスト用モデルの大規模なトレーニングを可能にして研究者から関連コミュニティーまで幅広く利用できるよう構築されました。

LDM3Dモデルは、インテル® Xeon® プロセッサーとHabana® Gaudi® AIアクセラレーターを搭載した、インテルのAIスーパーコンピューター上で学習処理が行われます。その結果抽出されたモデルとパイプラインに、生成したRGBカラー画像と深度マップを組み合わせ、360度の画像ビューを生成して没入体験を生み出します。

インテルとBlockadeの研究チームは、LDM3Dの可能性を実証するために、標準的な2DのRGBカラー写真と深度マップから没入感満載でインタラクティブに連動した360度の視界体験を生み出すアプリケーション「DepthFusion」を開発しました。DepthFusionでは、ノードベースのビジュアル・プログラミング言語「TouchDesigner」を使用し、双方向に連動するマルチメディア・コンテンツをリアルタイムで作成し、テキストプロンプトを没入感あるインタラクティブなデジタル体験へと変換します。LDM3Dモデルは、RGBカラー画像とその深度マップの両方を作り出し、メモリー・フットプリントの縮小とレイテンシーの低減につなげることができる、単一モデルです。

次のステップ:LDM3DとDepthFusionの登場により、マルチビューの生成AIとコンピューター・ビジョンをさらに前進させる道が切り拓かれます。インテルは今後も、人間の能力を拡張してオープンソースのAI研究開発の強力なエコシステムを確立する生成AIの用途を探究し、このテクノロジーへのアクセスを民主化して誰もが利用できるよう引き続き取り組んでいきます。オープンなAIエコシステムを目指しインテルが継続する強力なサポートにより、LDM3DはHuggingFaceを通じてオープンソース化されました。これにより、AIの研究開発に取り組むリサーチャーも、実装と運用を担当するプラクティショナーも、このシステムをさらに進化させ、カスタムのアプリケーションに合わせて微調整できるようになります。

詳細情報:インテルの研究に関しては、6月18日~22日に開催される「IEEE/CVF Computer Vision and Pattern Recognition Conference(CVPR)」にてプレゼンテーションが実施される予定です。視聴:LDM3Dのデモ。詳細については、「LDM3D:3D潜在拡散モデル」を参照してください。