モバイルディフュージョンデバイス上でテキストから画像への高速生成

MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices

Tags: MobileDiffusion, text-to-image generation, diffusion models, mobile devices, efficiency

近年、テキストから高品質な画像を生成するためのテキストから画像への変換モデルが注目を集めています。しかし、これらのモデルは数十億のパラメータを持つため、高性能なデスクトップやサーバーが必要であり、実行に高いコストがかかります(例:Stable Diffusion、DALL·E、Imagen)。最近では、MediaPipeを介したAndroid、Core MLを介したiOSでの推論ソリューションの進歩があったものの、モバイルデバイスでの高速(サブセカンド)のテキストから画像への変換はまだ実現されていませんでした。

そこで、「MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices」では、モバイルデバイスでの高速なテキストから画像への変換を可能にする革新的な手法を紹介しています。MobileDiffusionは、モバイルデバイス向けに特別に設計された効率的な潜在的拡散モデルです。また、推論中に事前学習済みの拡散モデルを微調整し、GANを使用してノイズ除去ステップをモデル化することで、一段階のサンプリングを実現するDiffusionGANを採用しています。MobileDiffusionはiOSとAndroidのプレミアムデバイスでテストされ、512×512の高品質な画像を半秒で生成することができます。また、わずか520Mのパラメータサイズは、モバイル展開に適しています。

テキストから画像への拡散モデルの相対的な非効率性は、2つの主な課題から生じます。まず、拡散モデルの固有の設計では、画像を生成するために反復的なノイズ除去が必要であり、モデルの複数の評価が必要となります。2つ目に、テキストから画像への拡散モデルのネットワークアーキテクチャの複雑さは、数十億に及ぶパラメータを含むため、計算コストが高くなります。そのため、ユーザーエクスペリエンスの向上や新興のプライバシーの問題に対処するなど、モバイルデバイスに生成モデルを展開する潜在的な利点にもかかわらず、現在の文献では比較的探索が進んでいません。

テキストから画像への拡散モデルの推論効率の最適化は、研究の対象となっています。これまでの研究では、主に第一の課題に対処することに重点を置いており、関数評価の回数(NFEs)を減らすことを目指しています。高度な数値ソルバー(DPM)や蒸留技術(プログレッシブ蒸留、一貫性蒸留)を活用することで、必要なサンプリングステップの数は数百から一桁に大幅に減少しました。DiffusionGANやAdversarial Diffusion Distillationなどの最近の技術では、一つのステップにまで減少しています。

しかし、モバイルデバイスでは、少数の評価ステップでもモデルアーキテクチャの複雑さのために遅くなることがあります。これまで、テキストから画像への拡散モデルのアーキテクチャの効率については、ごくわずかな研究が行われてきました。SnapFusionなどの過去の研究では、冗長なニューラルネットワークブロックの削除などが試みられていますが、これらの取り組みはモデルアーキテクチャ内の各コンポーネントを包括的に分析していないため、効率的なアーキテクチャの設計についての包括的なガイドを提供するには至っていません。

モバイルデバイスの計算能力の制約に効果的に対処するには、モデルのアーキテクチャの詳細な調査と包括的な探求が必要です。この目標を達成するために、私たちの研究では、Stable DiffusionのUNetアーキテクチャ内の各構成要素と計算操作を詳細に調査しています。MobileDiffusionに至るまで、効率的なテキストから画像への拡散モデルの設計に向けた包括的なガイドを提供しています。

MobileDiffusionの設計は、潜在的な拡散モデルに従います。3つのコンポーネント、テキストエンコーダ、拡散UNet、および画像デコーダが含まれています。テキストエンコーダには、モバイルに適した小さなモデル(125Mのパラメータ)であるCLIP-ViT/L14を使用しています。その後、拡散UNetと画像デコーダに焦点を当てます。

以下の図に示すように、拡散UNetでは、一般的にトランスフォーマーブロックと畳み込みブロックが交互に配置されます。これら2つの基本的な構築ブロックについて包括的な調査を行っています。研究全体を通じて、トレーニングパイプライン(データ、オプティマイザなど)を制御して、異なるアーキテクチャの効果を調査しました。

クラシックなテキストから画像への拡散モデルでは、トランスフォーマーブロックは、視覚的特徴間の長距離依存関係をモデル化するためのセルフアテンションレイヤ(SA)、テキストの条件付けと視覚的特徴の相互作用を捉えるためのクロスアテンションレイヤ(CA)、およびアテンションレイヤの出力を後処理するためのフィードフォワードレイヤ(FF)で構成されています。これらのトランスフォーマーブロックは、テキスト理解に責任を持つ主要なコンポーネントとして重要な役割を果たします。しかし、アテンション操作の計算コストがシーケンスの長さに対して二次的であるため、これらは効率の課題を抱えています。私たちは、UViTアーキテクチャのアイデアに従っています。この設計の選択は、アテンション計算がボトルネックでリソースの使用量が少ないため、ボトルネックにより多くのトランスフォーマーブロックを配置するというものです。

特にResNetブロックの畳み込みブロックは、UNetの各レベルで展開されます

注意

  • この記事はAI(gpt-3.5-turbo)によって自動生成されたものです。
  • この記事はHackerNewsに掲載された下記の記事を元に作成されています。
    MobileDiffusion: Rapid text-to-image generation on-device
  • 自動生成された記事の内容に問題があると思われる場合にはコメント欄にてご連絡ください。

コメントする