27/28卒採用強化中!1on1会社説明会兼一次面接を実施しています。ご予約はこちらをクリック

Stable Diffusionの使い方を初心者向けにゼロから解説!インストール・画像生成・モデル選びまで丸わかり

Stable Diffusionの使い方を初心者向けにゼロから解説!インストール・画像生成・モデル選びまで丸わかり

AIによる画像生成が身近になった今、「Stable Diffusion」は最も注目されているツールの一つです。無料で使えるオープンソースの画像生成AIであり、自分のパソコンにインストールすればクラウドサービスに頼らず好きなだけ画像を作れます。しかし、初心者にとってはインストール方法やプロンプトの書き方、モデルの選び方など、わからないことだらけではないでしょうか。本記事では、Stable Diffusionの使い方を初心者向けにゼロから丁寧に解説します。環境構築から実際の画像生成、クオリティを上げるコツまで、この記事一本で一通りの知識が身につく内容になっています。

この記事で分かること
  • Stable Diffusionのインストール方法と必要なPC環境

NVIDIA製GPUを搭載したWindowsPCがあれば、無料のWebUI「Stable Diffusion WebUI(AUTOMATIC1111)」を使って簡単に環境構築できます。VRAMは8GB以上が推奨です。

  • プロンプトの書き方と画像生成の基本操作

英語で「何を描いてほしいか」を指示するプロンプトと、「描いてほしくないもの」を指定するネガティブプロンプトを組み合わせることで、思い通りの画像を生成できます。

  • モデル・LoRA・拡張機能の選び方と活用法

Civitaiなどのモデル共有サイトから目的に合ったモデルやLoRAをダウンロードし、適切に設定することで画像のクオリティやスタイルを大幅に向上させることができます。

目次

Stable Diffusionとは何か?初心者が知っておくべき基礎知識

Stable Diffusionの仕組みと特徴

Stable Diffusion(ステーブル・ディフュージョン)は、テキストの指示文(プロンプト)を入力するだけでAIが画像を自動生成してくれるオープンソースの画像生成モデルです。2022年にStability AI社が公開して以来、世界中のクリエイターや開発者に利用されています。

技術的には「拡散モデル(Diffusion Model)」と呼ばれる仕組みを採用しています。これは、ノイズだらけの画像から徐々にノイズを取り除いていくことで、意味のある画像を生成する手法です。最大の特徴は、オープンソースのため無料で利用でき、自分のPCにインストールしてローカル環境で動作させられる点です。

MidjourneyやDALL·Eなどの他のAI画像生成サービスと異なり、月額料金が不要で生成枚数にも制限がありません。カスタマイズ性が非常に高く、モデルの入れ替えや拡張機能の追加も自由に行えます。

他のAI画像生成サービスとの違い

AI画像生成ツールにはさまざまな選択肢がありますが、それぞれに特徴があります。初心者がStable Diffusionを選ぶ際の判断材料として、主要サービスとの違いを把握しておきましょう。

このように、Stable Diffusionはカスタマイズ性と自由度の高さでは圧倒的ですが、導入のハードルがやや高いという特徴があります。ただし、一度環境を構築してしまえば、コスト面でもクオリティ面でも大きなメリットを享受できます。

手軽さを優先するならMidjourneyやDALL·E 3がおすすめですが、本格的に画像生成に取り組みたい方にはStable Diffusionが最適な選択肢と言えるでしょう。

Stable Diffusionでできること

Stable Diffusionは単に「テキストから画像を生成する」だけのツールではありません。さまざまな機能を活用することで、幅広いクリエイティブ作業に対応できます。

  • txt2img(テキストからの画像生成)でイラストや写真風画像を作成
  • img2img(画像を元にした画像変換)で既存の画像をAIで加工
  • Inpaint(インペイント)機能で画像の一部だけを修正・変更
  • ControlNetを使ったポーズ指定や線画からの着色

特にtxt2img機能は最も基本的な使い方で、英語のプロンプトを入力するだけで高品質な画像が出力されます。初心者はまずtxt2imgでの画像生成に慣れてから、img2imgやInpaintなどの応用機能に進むのがおすすめです。

また、拡張機能(Extensions)を追加することで、アップスケール(高解像度化)やアニメーション生成、顔の修正など、機能をどんどん拡張していけるのもStable Diffusionの大きな魅力です。

Stable Diffusionのインストール方法と環境構築

必要なPCスペックと推奨環境

Stable Diffusionをローカル環境で動かすには、ある程度のPCスペックが必要です。特に重要なのがGPU(グラフィックボード)で、NVIDIA製のGPUが必須となります。AMD製GPUでも動作する方法はありますが、初心者にはNVIDIA環境が圧倒的におすすめです。

VRAM(ビデオメモリ)は8GB以上を強く推奨します。VRAM 6GBでも動作はしますが、生成できる画像サイズが制限されたり、処理速度が遅くなったりします。快適に使いたい場合はRTX 3060(12GB)やRTX 4060 Ti(16GB)がコストパフォーマンスに優れています。

ストレージについては、モデルファイル1つあたり2〜7GB程度の容量を使うため、複数のモデルを使い分けたい場合は余裕を持った空き容量を確保しておきましょう。

AUTOMATIC1111版WebUIのインストール手順

Stable Diffusionを操作するためのインターフェースとして最もポピュラーなのが「AUTOMATIC1111版 Stable Diffusion WebUI」です。ブラウザ上でGUI(グラフィカルユーザーインターフェース)を通じて直感的に操作できるため、初心者にも扱いやすい環境です。

インストールの大まかな流れは以下のとおりです。

  • Python 3.10.xをインストールする(3.11以降は非推奨)
  • Gitをインストールする
  • GitHubからAUTOMATIC1111のリポジトリをクローンする
  • webui-user.batを実行して初回セットアップを行う

まず、Pythonの公式サイトからPython 3.10.xをダウンロードしてインストールします。インストール時に「Add Python to PATH」にチェックを入れることを忘れないでください。これを忘れるとWebUIが正常に動作しません。

次にGitをインストールし、コマンドプロンプトで以下のコマンドを実行してWebUIのファイルをダウンロードします。「git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git」と入力するだけです。ダウンロードが完了したら、フォルダ内の「webui-user.bat」をダブルクリックするだけで初回セットアップが自動的に始まります。

初回起動時は必要なライブラリのダウンロードに10〜30分程度かかります。セットアップが完了するとブラウザが自動的に開き、WebUIの操作画面が表示されます。

Forge版WebUIという選択肢

最近ではAUTOMATIC1111の派生版として「Stable Diffusion WebUI Forge」も人気を集めています。Forgeは、AUTOMATIC1111をベースにメモリ管理や処理速度を最適化したバージョンで、特にVRAMが少ないGPUでの動作パフォーマンスが大幅に改善されています。

インストール方法はAUTOMATIC1111とほぼ同じで、GitHubからForgeのリポジトリをクローンして「webui-user.bat」を実行するだけです。VRAM 8GB以下のGPUを使っている方や、SDXL(高解像度版のモデル)を使いたい方にはForge版が特におすすめです。

AUTOMATIC1111用の拡張機能やモデルの多くはForgeでもそのまま使えるため、互換性の面でも安心です。どちらを選んでも基本的な操作方法は同じなので、自分のPC環境に合わせて選択しましょう。

GPUがないPCでも使えるクラウドサービス

高性能なGPUを搭載したPCを持っていない場合でも、クラウドサービスを利用すればStable Diffusionを使うことができます。代表的なサービスとしてGoogle Colab、Paperspace、RunPodなどがあります。

初心者がまず試してみたいという場合は、Google Colabの無料枠やMage.spaceなどのブラウザベースのサービスから始めるのが手軽です。ただし、Google Colabは利用規約の変更により無料版でのStable Diffusion利用が制限される場合があるため、最新の情報を確認してから利用しましょう。

本格的に使い込みたい場合は、最終的にはローカル環境を構築するのがコスト面でも自由度の面でも最善です。クラウドサービスはあくまで「お試し」や「サブ環境」として活用するのがよいでしょう。

プロンプトの書き方と画像生成の基本操作

プロンプトとネガティブプロンプトの基本

Stable Diffusionで画像を生成する際に最も重要なのが「プロンプト」です。プロンプトとは、AIに対して「どんな画像を生成してほしいか」を英語で指示するテキストのことです。WebUIの画面上部にある入力欄に英語で記述します。

プロンプトは基本的に英単語やフレーズをカンマで区切って記述します。例えば「1girl, long hair, blue eyes, school uniform, standing, cherry blossoms, spring, high quality」のように、描きたい要素を並べていきます。

一方、「ネガティブプロンプト」は「描いてほしくないもの」を指定する欄です。「low quality, worst quality, blurry, bad anatomy, extra fingers」など品質低下の原因となる要素をネガティブプロンプトに入れることで、画像のクオリティが大幅に向上します。

プロンプトは前方に書いたものほど優先度が高くなる傾向があります。最も重要な要素を先頭に配置し、補足的な要素を後ろに並べるのがコツです。

プロンプトの構成要素と書き方のコツ

効果的なプロンプトを書くためには、いくつかの構成要素を意識することが大切です。以下の要素をバランスよく組み合わせることで、意図した画像を生成しやすくなります。

また、プロンプトの強調構文も覚えておくと便利です。特定のワードを「(括弧)」で囲むと強調され、「((二重括弧))」でさらに強調されます。逆に「[角括弧]」で囲むと影響を弱められます。

初心者はまず品質タグ+被写体+外見+背景の4要素を意識してプロンプトを組み立てるところから始めましょう。慣れてきたら、ポーズや画風の指定を加えてより細かいコントロールに挑戦していくのがおすすめです。

生成パラメータの意味と調整方法

WebUIにはプロンプト以外にもさまざまな設定項目があります。これらのパラメータを適切に調整することで、画像のクオリティや生成結果を大きく変えることができます。

  • Sampling method(サンプラー)は「DPM++ 2M Karras」や「Euler a」が初心者向け
  • Sampling steps(ステップ数)は20〜30が標準的。多すぎると時間がかかるだけ
  • CFG Scale(プロンプトへの忠実度)は7〜12が推奨。高すぎると画像が破綻する
  • Seed(シード値)を固定すると同じ構図の画像を再現できる

画像サイズ(Width × Height)は、使用するモデルによって最適値が異なります。SD1.5系のモデルなら512×512が基本で、SDXL系のモデルなら1024×1024が標準です。基本サイズから大きく外れた設定にすると、人物の顔が崩れたり構図が不自然になったりするため注意してください。

Batch count(バッチカウント)を増やせば一度に複数枚の画像を生成できます。最初は1枚ずつ生成して結果を確認し、プロンプトやパラメータを微調整しながら理想の画像に近づけていきましょう。

初めての画像生成を実践してみよう

ここまでの知識を踏まえて、実際に画像を生成してみましょう。WebUIを起動したら、以下の手順で進めます。

まず、画面左上のモデル選択欄でチェックポイントモデル(後述)が選択されていることを確認します。次に、プロンプト欄に「masterpiece, best quality, 1girl, long hair, blue eyes, smile, white dress, standing in a flower garden, sunny day」と入力してみましょう。

ネガティブプロンプト欄には「low quality, worst quality, blurry, bad anatomy, extra fingers, missing fingers, bad hands」と入力します。パラメータはSampling methodを「DPM++ 2M Karras」、Stepsを「25」、CFG Scaleを「7」、サイズを「512×768」に設定してください。

設定が完了したら「Generate」ボタンをクリックするだけで、数十秒〜数分後に画像が生成されます。気に入った画像ができたらSeed値をメモしておくと、同じ構図で微調整を加えることができます。思い通りの画像にならなくても、プロンプトの追加・削除やパラメータの変更を繰り返すことで、徐々に理想に近づけていけます。

モデル・LoRA・VAEの選び方と導入方法

チェックポイントモデルの種類と選び方

Stable Diffusionの画像生成において、最も画風やクオリティに影響を与えるのが「チェックポイントモデル」です。チェックポイントモデルとは、AIが画像を生成するための学習済みデータのことで、モデルによってアニメ風、リアル風、イラスト風など出力される画像のスタイルが大きく変わります。

モデルは大きく分けて「SD1.5系」と「SDXL系」の2種類があります。SD1.5系は軽量で動作が速く、VRAM 6GBのGPUでも動作します。SDXL系はより高画質な画像を生成できますが、VRAM 8GB以上が必要です。

初心者はまずSD1.5系のモデルから始めて、PCの性能に余裕があればSDXL系に移行するのがスムーズです。モデルのダウンロードは「Civitai」や「Hugging Face」といったモデル共有サイトから行えます。ダウンロードしたファイルはWebUIの「models/Stable-diffusion」フォルダに配置するだけで使えるようになります。

LoRAで画風やキャラクターを追加する方法

LoRA(Low-Rank Adaptation)は、チェックポイントモデルに追加で適用する小さな学習データです。特定の画風、キャラクター、衣装、ポーズなどを学習させたLoRAを使うことで、ベースモデルだけでは再現が難しい表現が可能になります。

LoRAファイルは通常10〜200MB程度とチェックポイントモデルに比べて非常に軽量です。WebUIの「models/Lora」フォルダにファイルを配置し、プロンプト内で「<lora:ファイル名:強度>」と記述することで適用できます。強度は0〜1の範囲で指定し、通常は0.6〜0.8程度がバランスの良い設定です。

LoRAは複数を同時に適用することもでき、例えば「画風LoRA」と「衣装LoRA」を組み合わせるといった使い方が可能です。ただし、あまり多くのLoRAを同時に使うと画像が破綻することがあるため、2〜3個程度に抑えるのがおすすめです。

VAEの役割と設定方法

VAE(Variational Autoencoder、変分オートエンコーダ)は、画像の色味や鮮やかさに影響を与えるコンポーネントです。適切なVAEを設定しないと、生成される画像の色がくすんだり、全体的にぼやけた印象になったりすることがあります。

多くのチェックポイントモデルにはVAEが内蔵されていますが、別途VAEファイルを指定することでより良い結果が得られる場合があります。代表的なVAEファイルとしては「vae-ft-mse-840000-ema-pruned」が広く使われています。

VAEファイルは「models/VAE」フォルダに配置し、WebUIの「Settings」→「Stable Diffusion」→「SD VAE」から選択します。モデルによっては専用のVAEが推奨されている場合があるため、モデルのダウンロードページに記載された推奨設定を必ず確認しましょう。

よくある質問

Stable Diffusionは完全に無料で使えますか

はい、Stable Diffusion自体はオープンソースのため完全に無料で利用できます。ただし、ローカル環境で動かすにはNVIDIA製GPUを搭載したPCが必要です。すでに対応PCをお持ちであれば追加費用はかかりません。GPUがない場合はGoogle ColabやRunPodなどのクラウドサービスを利用する方法もありますが、こちらは利用量に応じて費用が発生する場合があります。

Mac(Apple Silicon)でもStable Diffusionは動きますか

M1/M2/M3チップ搭載のMacでもStable Diffusionを動作させることは可能です。AUTOMATIC1111版WebUIはMacにも対応しており、Apple SiliconのGPU機能を使って画像を生成できます。ただし、NVIDIA製GPUと比較すると生成速度は遅めで、一部の拡張機能が対応していない場合があります。初心者にはWindows+NVIDIA GPU環境の方がトラブルが少なくおすすめです。

生成した画像の著作権はどうなりますか

Stable Diffusionで生成した画像の著作権については、法的な議論がまだ続いている段階です。日本の現行法では、AIが自動生成した画像には著作権が発生しないとする見解が一般的ですが、プロンプトの工夫や加工を加えた場合は著作物として認められる可能性もあります。商用利用する場合は、使用するモデルのライセンス条件を必ず確認してください。モデルによっては商用利用が禁止されているものもあります。

画像生成に1枚あたりどのくらい時間がかかりますか

生成時間はGPUの性能、画像サイズ、ステップ数によって大きく変わります。例えばRTX 3060でSD1.5モデル、512×512、20ステップの場合は約5〜10秒程度で生成できます。SDXL系モデルで1024×1024の場合は20〜40秒程度かかることが一般的です。VRAMが少ないGPUや高解像度の設定では、さらに時間がかかる場合があります。

AUTOMATIC1111とForgeのどちらを使うべきですか

どちらも基本的な操作方法は同じなので、初心者はどちらを選んでも問題ありません。判断基準としては、GPUのVRAMが8GB以下の場合やSDXLモデルを多用したい場合はForgeがおすすめです。一方、情報量が多く困ったときに解決策を見つけやすいのはAUTOMATIC1111です。迷ったらまずAUTOMATIC1111で始めて、動作が重いと感じたらForgeに乗り換えるのも一つの方法です。

まとめ

本記事では、Stable Diffusionの使い方を初心者向けにゼロから解説しました。Stable Diffusionの基礎知識から、インストール方法、プロンプトの書き方、モデル・LoRA・VAEの選び方まで、画像生成を始めるために必要な知識を一通りカバーしています。

最初は覚えることが多く感じるかもしれませんが、一度環境を構築してしまえば、あとはプロンプトの工夫とモデルの組み合わせで無限の可能性が広がります。まずはシンプルなプロンプトで画像を生成してみて、少しずつパラメータやLoRAの調整に挑戦していきましょう。

AI画像生成をはじめとする最先端のテクノロジーに興味がある方にとって、今はまさに技術を学び、実践するベストなタイミングです。株式会社TechSuiteでは、AIやWeb技術を駆使したプロダクト開発に日々取り組んでおり、最新技術に触れながら成長できる環境が整っています。新しい技術に挑戦したい方、AIの可能性を一緒に追求したい方は、ぜひTechSuiteの採用情報をチェックしてみてください。私たちと一緒に、テクノロジーで未来を創る仲間をお待ちしています。

よかったらシェアしてね!
  • URLをコピーしました!
目次