Stable Diffusionの使い方を初心者向けにゼロから解説!インストール・画像生成・モデル選びまで丸わかり

AIによる画像生成が身近になった今、「Stable Diffusion」は最も注目されているツールの一つです。無料で使えるオープンソースの画像生成AIであり、自分のパソコンにインストールすればクラウドサービスに頼らず好きなだけ画像を作れます。しかし、初心者にとってはインストール方法やプロンプトの書き方、モデルの選び方など、わからないことだらけではないでしょうか。本記事では、Stable Diffusionの使い方を初心者向けにゼロから丁寧に解説します。環境構築から実際の画像生成、クオリティを上げるコツまで、この記事一本で一通りの知識が身につく内容になっています。
- Stable Diffusionのインストール方法と必要なPC環境
NVIDIA製GPUを搭載したWindowsPCがあれば、無料のWebUI「Stable Diffusion WebUI(AUTOMATIC1111)」を使って簡単に環境構築できます。VRAMは8GB以上が推奨です。
- プロンプトの書き方と画像生成の基本操作
英語で「何を描いてほしいか」を指示するプロンプトと、「描いてほしくないもの」を指定するネガティブプロンプトを組み合わせることで、思い通りの画像を生成できます。
- モデル・LoRA・拡張機能の選び方と活用法
Civitaiなどのモデル共有サイトから目的に合ったモデルやLoRAをダウンロードし、適切に設定することで画像のクオリティやスタイルを大幅に向上させることができます。
Stable Diffusionとは何か?初心者が知っておくべき基礎知識
Stable Diffusionの仕組みと特徴
Stable Diffusion(ステーブル・ディフュージョン)は、テキストの指示文(プロンプト)を入力するだけでAIが画像を自動生成してくれるオープンソースの画像生成モデルです。2022年にStability AI社が公開して以来、世界中のクリエイターや開発者に利用されています。
技術的には「拡散モデル(Diffusion Model)」と呼ばれる仕組みを採用しています。これは、ノイズだらけの画像から徐々にノイズを取り除いていくことで、意味のある画像を生成する手法です。最大の特徴は、オープンソースのため無料で利用でき、自分のPCにインストールしてローカル環境で動作させられる点です。
MidjourneyやDALL·Eなどの他のAI画像生成サービスと異なり、月額料金が不要で生成枚数にも制限がありません。カスタマイズ性が非常に高く、モデルの入れ替えや拡張機能の追加も自由に行えます。
他のAI画像生成サービスとの違い
AI画像生成ツールにはさまざまな選択肢がありますが、それぞれに特徴があります。初心者がStable Diffusionを選ぶ際の判断材料として、主要サービスとの違いを把握しておきましょう。
| 項目 | Stable Diffusion | Midjourney | DALL·E 3 | Adobe Firefly |
|---|---|---|---|---|
| 料金 | 無料(ローカル) | 月額10ドル〜 | ChatGPT Plus内(月額20ドル) | 無料枠あり/有料プランあり |
| 動作環境 | 自分のPC(GPU必要) | Discord/Webアプリ | Webブラウザ | Webブラウザ |
| カスタマイズ性 | 非常に高い | 低い | 低い | 中程度 |
| 生成枚数制限 | 無制限 | プランにより制限あり | プランにより制限あり | 無料枠に制限あり |
| 学習コスト | やや高い | 低い | 非常に低い | 低い |
このように、Stable Diffusionはカスタマイズ性と自由度の高さでは圧倒的ですが、導入のハードルがやや高いという特徴があります。ただし、一度環境を構築してしまえば、コスト面でもクオリティ面でも大きなメリットを享受できます。
手軽さを優先するならMidjourneyやDALL·E 3がおすすめですが、本格的に画像生成に取り組みたい方にはStable Diffusionが最適な選択肢と言えるでしょう。
Stable Diffusionでできること
Stable Diffusionは単に「テキストから画像を生成する」だけのツールではありません。さまざまな機能を活用することで、幅広いクリエイティブ作業に対応できます。
- txt2img(テキストからの画像生成)でイラストや写真風画像を作成
- img2img(画像を元にした画像変換)で既存の画像をAIで加工
- Inpaint(インペイント)機能で画像の一部だけを修正・変更
- ControlNetを使ったポーズ指定や線画からの着色
特にtxt2img機能は最も基本的な使い方で、英語のプロンプトを入力するだけで高品質な画像が出力されます。初心者はまずtxt2imgでの画像生成に慣れてから、img2imgやInpaintなどの応用機能に進むのがおすすめです。
また、拡張機能(Extensions)を追加することで、アップスケール(高解像度化)やアニメーション生成、顔の修正など、機能をどんどん拡張していけるのもStable Diffusionの大きな魅力です。
Stable Diffusionのインストール方法と環境構築
必要なPCスペックと推奨環境
Stable Diffusionをローカル環境で動かすには、ある程度のPCスペックが必要です。特に重要なのがGPU(グラフィックボード)で、NVIDIA製のGPUが必須となります。AMD製GPUでも動作する方法はありますが、初心者にはNVIDIA環境が圧倒的におすすめです。
| 項目 | 最低スペック | 推奨スペック |
|---|---|---|
| GPU | NVIDIA GTX 1660(VRAM 6GB) | NVIDIA RTX 3060以上(VRAM 12GB) |
| メモリ(RAM) | 8GB | 16GB以上 |
| ストレージ | SSD 20GB以上の空き | SSD 100GB以上の空き |
| OS | Windows 10 64bit | Windows 10/11 64bit |
| CPU | Intel Core i5以上 | Intel Core i7以上/Ryzen 5以上 |
VRAM(ビデオメモリ)は8GB以上を強く推奨します。VRAM 6GBでも動作はしますが、生成できる画像サイズが制限されたり、処理速度が遅くなったりします。快適に使いたい場合はRTX 3060(12GB)やRTX 4060 Ti(16GB)がコストパフォーマンスに優れています。
ストレージについては、モデルファイル1つあたり2〜7GB程度の容量を使うため、複数のモデルを使い分けたい場合は余裕を持った空き容量を確保しておきましょう。
AUTOMATIC1111版WebUIのインストール手順
Stable Diffusionを操作するためのインターフェースとして最もポピュラーなのが「AUTOMATIC1111版 Stable Diffusion WebUI」です。ブラウザ上でGUI(グラフィカルユーザーインターフェース)を通じて直感的に操作できるため、初心者にも扱いやすい環境です。
インストールの大まかな流れは以下のとおりです。
- Python 3.10.xをインストールする(3.11以降は非推奨)
- Gitをインストールする
- GitHubからAUTOMATIC1111のリポジトリをクローンする
- webui-user.batを実行して初回セットアップを行う
まず、Pythonの公式サイトからPython 3.10.xをダウンロードしてインストールします。インストール時に「Add Python to PATH」にチェックを入れることを忘れないでください。これを忘れるとWebUIが正常に動作しません。
次にGitをインストールし、コマンドプロンプトで以下のコマンドを実行してWebUIのファイルをダウンロードします。「git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git」と入力するだけです。ダウンロードが完了したら、フォルダ内の「webui-user.bat」をダブルクリックするだけで初回セットアップが自動的に始まります。
初回起動時は必要なライブラリのダウンロードに10〜30分程度かかります。セットアップが完了するとブラウザが自動的に開き、WebUIの操作画面が表示されます。
Forge版WebUIという選択肢
最近ではAUTOMATIC1111の派生版として「Stable Diffusion WebUI Forge」も人気を集めています。Forgeは、AUTOMATIC1111をベースにメモリ管理や処理速度を最適化したバージョンで、特にVRAMが少ないGPUでの動作パフォーマンスが大幅に改善されています。
インストール方法はAUTOMATIC1111とほぼ同じで、GitHubからForgeのリポジトリをクローンして「webui-user.bat」を実行するだけです。VRAM 8GB以下のGPUを使っている方や、SDXL(高解像度版のモデル)を使いたい方にはForge版が特におすすめです。
AUTOMATIC1111用の拡張機能やモデルの多くはForgeでもそのまま使えるため、互換性の面でも安心です。どちらを選んでも基本的な操作方法は同じなので、自分のPC環境に合わせて選択しましょう。
GPUがないPCでも使えるクラウドサービス
高性能なGPUを搭載したPCを持っていない場合でも、クラウドサービスを利用すればStable Diffusionを使うことができます。代表的なサービスとしてGoogle Colab、Paperspace、RunPodなどがあります。
| サービス名 | 料金目安 | 特徴 |
|---|---|---|
| Google Colab | 無料枠あり(有料版は月額約1,200円〜) | Googleアカウントがあればすぐ使える。無料版は制限あり |
| Paperspace | 月額8ドル〜 | 専用のGPUインスタンスを利用可能。安定した動作 |
| RunPod | 従量課金(1時間あたり約0.2ドル〜) | 高性能GPUを時間単位でレンタル。コスパが良い |
| Mage.space | 無料枠あり | ブラウザから直接使える。インストール不要 |
初心者がまず試してみたいという場合は、Google Colabの無料枠やMage.spaceなどのブラウザベースのサービスから始めるのが手軽です。ただし、Google Colabは利用規約の変更により無料版でのStable Diffusion利用が制限される場合があるため、最新の情報を確認してから利用しましょう。
本格的に使い込みたい場合は、最終的にはローカル環境を構築するのがコスト面でも自由度の面でも最善です。クラウドサービスはあくまで「お試し」や「サブ環境」として活用するのがよいでしょう。
プロンプトの書き方と画像生成の基本操作
プロンプトとネガティブプロンプトの基本
Stable Diffusionで画像を生成する際に最も重要なのが「プロンプト」です。プロンプトとは、AIに対して「どんな画像を生成してほしいか」を英語で指示するテキストのことです。WebUIの画面上部にある入力欄に英語で記述します。
プロンプトは基本的に英単語やフレーズをカンマで区切って記述します。例えば「1girl, long hair, blue eyes, school uniform, standing, cherry blossoms, spring, high quality」のように、描きたい要素を並べていきます。
一方、「ネガティブプロンプト」は「描いてほしくないもの」を指定する欄です。「low quality, worst quality, blurry, bad anatomy, extra fingers」など品質低下の原因となる要素をネガティブプロンプトに入れることで、画像のクオリティが大幅に向上します。
プロンプトは前方に書いたものほど優先度が高くなる傾向があります。最も重要な要素を先頭に配置し、補足的な要素を後ろに並べるのがコツです。
プロンプトの構成要素と書き方のコツ
効果的なプロンプトを書くためには、いくつかの構成要素を意識することが大切です。以下の要素をバランスよく組み合わせることで、意図した画像を生成しやすくなります。
| 構成要素 | 説明 | 記述例 |
|---|---|---|
| 品質タグ | 画像全体のクオリティを指定 | masterpiece, best quality, ultra detailed |
| 被写体 | 描きたいメインの対象 | 1girl, 1boy, landscape, cat |
| 外見・特徴 | 被写体の詳細な見た目 | long blonde hair, green eyes, smile |
| 服装・装備 | 衣装やアクセサリー | white dress, hat, glasses |
| ポーズ・動作 | 被写体の姿勢や行動 | sitting, running, looking at viewer |
| 背景・環境 | シーンの舞台設定 | in a forest, city at night, blue sky |
| 画風・スタイル | 絵のタッチや雰囲気 | anime style, photorealistic, watercolor |
また、プロンプトの強調構文も覚えておくと便利です。特定のワードを「(括弧)」で囲むと強調され、「((二重括弧))」でさらに強調されます。逆に「[角括弧]」で囲むと影響を弱められます。
初心者はまず品質タグ+被写体+外見+背景の4要素を意識してプロンプトを組み立てるところから始めましょう。慣れてきたら、ポーズや画風の指定を加えてより細かいコントロールに挑戦していくのがおすすめです。
生成パラメータの意味と調整方法
WebUIにはプロンプト以外にもさまざまな設定項目があります。これらのパラメータを適切に調整することで、画像のクオリティや生成結果を大きく変えることができます。
- Sampling method(サンプラー)は「DPM++ 2M Karras」や「Euler a」が初心者向け
- Sampling steps(ステップ数)は20〜30が標準的。多すぎると時間がかかるだけ
- CFG Scale(プロンプトへの忠実度)は7〜12が推奨。高すぎると画像が破綻する
- Seed(シード値)を固定すると同じ構図の画像を再現できる
画像サイズ(Width × Height)は、使用するモデルによって最適値が異なります。SD1.5系のモデルなら512×512が基本で、SDXL系のモデルなら1024×1024が標準です。基本サイズから大きく外れた設定にすると、人物の顔が崩れたり構図が不自然になったりするため注意してください。
Batch count(バッチカウント)を増やせば一度に複数枚の画像を生成できます。最初は1枚ずつ生成して結果を確認し、プロンプトやパラメータを微調整しながら理想の画像に近づけていきましょう。
初めての画像生成を実践してみよう
ここまでの知識を踏まえて、実際に画像を生成してみましょう。WebUIを起動したら、以下の手順で進めます。
まず、画面左上のモデル選択欄でチェックポイントモデル(後述)が選択されていることを確認します。次に、プロンプト欄に「masterpiece, best quality, 1girl, long hair, blue eyes, smile, white dress, standing in a flower garden, sunny day」と入力してみましょう。
ネガティブプロンプト欄には「low quality, worst quality, blurry, bad anatomy, extra fingers, missing fingers, bad hands」と入力します。パラメータはSampling methodを「DPM++ 2M Karras」、Stepsを「25」、CFG Scaleを「7」、サイズを「512×768」に設定してください。
設定が完了したら「Generate」ボタンをクリックするだけで、数十秒〜数分後に画像が生成されます。気に入った画像ができたらSeed値をメモしておくと、同じ構図で微調整を加えることができます。思い通りの画像にならなくても、プロンプトの追加・削除やパラメータの変更を繰り返すことで、徐々に理想に近づけていけます。
モデル・LoRA・VAEの選び方と導入方法
チェックポイントモデルの種類と選び方
Stable Diffusionの画像生成において、最も画風やクオリティに影響を与えるのが「チェックポイントモデル」です。チェックポイントモデルとは、AIが画像を生成するための学習済みデータのことで、モデルによってアニメ風、リアル風、イラスト風など出力される画像のスタイルが大きく変わります。
モデルは大きく分けて「SD1.5系」と「SDXL系」の2種類があります。SD1.5系は軽量で動作が速く、VRAM 6GBのGPUでも動作します。SDXL系はより高画質な画像を生成できますが、VRAM 8GB以上が必要です。
| モデル名 | 系統 | 得意なスタイル | 特徴 |
|---|---|---|---|
| Anything V5 | SD1.5 | アニメ・イラスト | 日本のアニメ風イラストに特化。初心者に人気 |
| Realistic Vision | SD1.5 | 実写・フォトリアル | 人物写真のようなリアルな画像生成が得意 |
| Counterfeit | SD1.5 | アニメ・高品質イラスト | 繊細で美しいアニメ調の画像を生成 |
| AnimagineXL | SDXL | アニメ・イラスト | SDXL系で最も人気のアニメモデルの一つ |
| Juggernaut XL | SDXL | 実写・フォトリアル | SDXL系のリアル系モデルの定番 |
初心者はまずSD1.5系のモデルから始めて、PCの性能に余裕があればSDXL系に移行するのがスムーズです。モデルのダウンロードは「Civitai」や「Hugging Face」といったモデル共有サイトから行えます。ダウンロードしたファイルはWebUIの「models/Stable-diffusion」フォルダに配置するだけで使えるようになります。
LoRAで画風やキャラクターを追加する方法
LoRA(Low-Rank Adaptation)は、チェックポイントモデルに追加で適用する小さな学習データです。特定の画風、キャラクター、衣装、ポーズなどを学習させたLoRAを使うことで、ベースモデルだけでは再現が難しい表現が可能になります。
LoRAファイルは通常10〜200MB程度とチェックポイントモデルに比べて非常に軽量です。WebUIの「models/Lora」フォルダにファイルを配置し、プロンプト内で「<lora:ファイル名:強度>」と記述することで適用できます。強度は0〜1の範囲で指定し、通常は0.6〜0.8程度がバランスの良い設定です。
LoRAは複数を同時に適用することもでき、例えば「画風LoRA」と「衣装LoRA」を組み合わせるといった使い方が可能です。ただし、あまり多くのLoRAを同時に使うと画像が破綻することがあるため、2〜3個程度に抑えるのがおすすめです。
VAEの役割と設定方法
VAE(Variational Autoencoder、変分オートエンコーダ)は、画像の色味や鮮やかさに影響を与えるコンポーネントです。適切なVAEを設定しないと、生成される画像の色がくすんだり、全体的にぼやけた印象になったりすることがあります。
多くのチェックポイントモデルにはVAEが内蔵されていますが、別途VAEファイルを指定することでより良い結果が得られる場合があります。代表的なVAEファイルとしては「vae-ft-mse-840000-ema-pruned」が広く使われています。
VAEファイルは「models/VAE」フォルダに配置し、WebUIの「Settings」→「Stable Diffusion」→「SD VAE」から選択します。モデルによっては専用のVAEが推奨されている場合があるため、モデルのダウンロードページに記載された推奨設定を必ず確認しましょう。
よくある質問
まとめ
本記事では、Stable Diffusionの使い方を初心者向けにゼロから解説しました。Stable Diffusionの基礎知識から、インストール方法、プロンプトの書き方、モデル・LoRA・VAEの選び方まで、画像生成を始めるために必要な知識を一通りカバーしています。
最初は覚えることが多く感じるかもしれませんが、一度環境を構築してしまえば、あとはプロンプトの工夫とモデルの組み合わせで無限の可能性が広がります。まずはシンプルなプロンプトで画像を生成してみて、少しずつパラメータやLoRAの調整に挑戦していきましょう。
AI画像生成をはじめとする最先端のテクノロジーに興味がある方にとって、今はまさに技術を学び、実践するベストなタイミングです。株式会社TechSuiteでは、AIやWeb技術を駆使したプロダクト開発に日々取り組んでおり、最新技術に触れながら成長できる環境が整っています。新しい技術に挑戦したい方、AIの可能性を一緒に追求したい方は、ぜひTechSuiteの採用情報をチェックしてみてください。私たちと一緒に、テクノロジーで未来を創る仲間をお待ちしています。
