Stable Diffusion 3.5 のご紹介

ポイント

  • Stable Diffusion 3.5 をご紹介します。このオープンリリースには、Stable Diffusion 3.5 Large や Stable Diffusion 3.5 Large Turbo など、複数のモデルのバリエーションが含まれています。さらに、Stable Diffusion 3.5 Medium は10月29日 (EU/US時間)にリリースされる予定です。
  • これらのモデルは、そのサイズにもかかわらず高いカスタマイズ性を持ち、一般のハードウェアで動作します。また、 Stability AI Community License の下で、商業および非商業利用のいずれにも無料で利用できます。
  • Stable Diffusion 3.5 Large および Stable Diffusion 3.5 Large Turbo は、現在 Hugging Face からダウンロードでき、GitHub では推論コードも入手可能です。

これまでで最も強力なモデルである Stable Diffusion 3.5 をご紹介します。このオープンリリースには、複数のカスタマイズ可能なバリエーションが含まれており、一般のハードウェアで動作します。また、 Stability AI Community License の下で利用可能です。Stable Diffusion 3.5 Large および Stable Diffusion 3.5 Large Turbo のモデルは、現在 Hugging Face からダウンロードでき、GitHub では推論コードも入手可能です。 

6月に、Stable Diffusion 3 シリーズの最初のオープンリリースである Stable Diffusion 3 Medium を公開しましたが。しかしこのリリースは、我々の基準や、コミュニティの期待を十分に満たすものではありませんでした。そこでコミュニティからの貴重なフィードバックを受け、早急な修正ではなく、ビジュアルメディアの変革というミッションを前進させるバージョンをさらに開発するための時間を取りました。

Stable Diffusion 3.5 は、あらゆるクリエイターに広くアクセス可能で最先端のツールを提供する、という私たちのコミットメントを表しています。ファインチューニング、LoRA、最適化、アプリケーション、またはアートワークなど、パイプライン全体にわたる仕事や成果物の配布と収益化を支援します。

リリースされるもの

Stable Diffusion 3.5 は、研究者、愛好家、スタートアップ企業、大企業など、あらゆるニーズに応えるために開発されたさまざまなモデルを提供します。

  • Stable Diffusion 3.5 Large: 80億のパラメータ、優れた品質、迅速な適合性を持つこの基本モデルは、Stable Diffusionファミリーの中で最も強力です。このモデルは、1メガピクセルの解像度でのプロフェッショナルな使用事例に最適です。
  • Stable Diffusion 3.5 Large Turbo: Stable Diffusion 3.5 Large の蒸留版であり、わずか4ステップで高品質な画像を生成し、優れた即時適合性を実現します。Stable Diffusion 3.5 Largeよりもはるかに高速です。
  • Stable Diffusion 3.5 Medium (10月29日リリース予定): 26億のパラメータ、改良されたMMDiT-Xアーキテクチャとトレーニング方法により、カスタマイズのしやすさと画質を両立させ、コンシューマー向けハードウェアで「箱から出してすぐに使える」ように設計されています。0.25~2 メガピクセルの解像度の画像を生成できます。

モデルの開発

モデルの開発にあたっては、柔軟な基盤を構築できるよう、カスタマイズ性を優先しました。これを実現するために、Query-Key Normalization をトランスフォーマーブロックに統合し、モデルのトレーニングプロセスを改善し、さらにファインチューニングや開発を簡素化しました。

このレベルの下流での柔軟性をサポートするために、いくつかのトレードオフが必要でした。異なるシードを使用した同じプロンプトからの出力に、より大きなばらつきが生じる可能性があります。これは意図的なもので、ベースモデルにおける幅広い知識ベースと多様なスタイルの維持に役立ちます。しかし、その結果、特定性のないプロンプトでは出力の不確実性が増大し、見た目のレベルにばらつきが生じる可能性があります。

特にMediumモデルでは、品質、一貫性、およびマルチ解像度生成能力を向上させるために、アーキテクチャとトレーニングプロトコルにいくつかの調整を加えました。

モデルの優位性

Stable Diffusion 3.5 バージョンは、以下の分野で優位性を発揮し、テキストプロンプトへの準拠と画質において最高水準のパフォーマンスを維持しながら、市場で最もカスタマイズ可能で利用しやすいイメージモデルのひとつとなっています。

  • カスタマイズ性: 特定のクリエイティブニーズを満たすために、モデルを簡単にファインチューニングしたりカスタマイズされたワークフローに基づくアプリケーションを構築したりすることができます。
  • 効率的なパフォーマンス:特にStable Diffusion 3.5 MediumおよびStable Diffusion 3.5 Large Turbo モデルでは標準的な一般消費者向けのハードウェアで高負荷をかけずに実行できるように最適化されています。
  • 多様な出力:広範な指示を必要とせずに、特定の人物だけでなく、さまざまな肌の色や特徴を持つ世界を代表するような画像を作成します。
  • 多彩なスタイル:3D、写真、絵画、線画など、幅広いスタイルと美しさを生成することが可能です。また、想像可能なほぼすべての視覚スタイルにも対応しています。

さらに、我々の分析では、Stable Diffusion 3.5 Large はプロンプト順守において市場をリードし、画像品質でははるかに大きなモデルと肩を並べています。

Stable Diffusion 3.5 Large Turbo は、そのサイズにおいて最速クラスの推論時間を提供しながら、画像の品質やプロンプトの再現性の面でも高い競争力を保っています。これは、同じサイズの非蒸留モデルと比較しても遜色ありません。

Stable Diffusion 3.5 Medium は、他の中型モデルを上回る性能を持ち、プロンプトの再現性と画像品質のバランスに優れていますので、効率的で高品質なパフォーマンスを求める場合の最適な選択肢となりうるでしょう。

Stability AI Community license の概要

community license の概要は以下の通りです。

  • 非営利目的の場合は無料: 個人および組織は、科学研究を含む非営利目的の場合、無料でモデルを使用することができます。 
  • 商用利用も無料(年間収益100万ドルまで):年間収益が100万ドル未満のスタートアップ企業、中小企業、クリエイターは、商用目的でも無料でこのモデルを使用できます。
  • 成果物の所有権:制限付きライセンスを伴うことなく生成されたメディアの所有権を保持します。


年間収益が100万ドル以上の企業については、エンタープライズライセンスについてこちらからお問い合わせください。

モデルへのアクセス方法が追加

Hugging Face では現在、モデルのウェイトをセルフホスティング用に利用できますが、以下のプラットフォームからもモデルにアクセスできます。

安全性に対する取り組み

私たちは、安全で責任あるAIの実践を信条とし、開発の初期段階からインテグリティを確保するための慎重な措置を講じています。これは、悪意のある行為者による Stable Diffusion 3.5 の悪用を防止するための合理的な措置を講じていることを意味します。安全性に対するアプローチの詳細については Stable Safety ページをご参照ください。

まもなくリリース

10月29日、Stable Diffusion 3.5 Mediumを一般公開いたします。その後まもなく、ControlNetsもリリースされ、幅広いプロフェッショナルな用途に対応する高度なコントロール機能を提供します。

Stable Diffusion 3.5に関するご意見や、このモデルで作成された作品をお待ちしております。ご意見は、このフォームから直接お寄せいただけます。


Stability AI の最新情報は公式XInstagram で発信しています。ぜひチェックしてみてください。

引用

Stability AI Japan
Stable Diffusion 3.5 のご紹介 — Stability AI Japan Stable Diffusion 3.5 をご紹介します。このオープンリリースには、Stable Diffusion 3.5 Large および Stable Diffusion 3.5 Large Turbo を含む複数のモデルバリエーショ...
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

AI・DX・LowCodeなど企業に役立つ情報を発信しています。

目次