FLUX.1で生成した人物画像のクオリティが気になっていたので、手持ちのRTX 4060 Ti(VRAM 8GB)で試してみた。結論から言うと、FP8量子化モデルを使えば8GBでも実用的な品質の画像が出る。1枚40秒ほど。
この記事では Stability Matrix + ComfyUI での環境構築手順と、実際に生成した画像を載せる。
使った環境
| 項目 | スペック |
|---|---|
| GPU | NVIDIA GeForce RTX 4060 Ti(VRAM 8GB) |
| RAM | 32GB |
| OS | Windows 11 |
| ComfyUI | v0.20.1(Stability Matrix経由) |
| モデル | Flux.1 Krea Dev CLIP+VAE FP8(約20GB) |
| PyTorch | 2.11.0+cu130 |
VRAM 8GBでFLUX.1を動かすポイントはFP8量子化。フルモデルだと24GB必要だが、FP8ならVRAM 8GB + システムRAMへのオフロードで動く。
環境構築の手順
1. Stability Matrixのインストール
Stability Matrixをダウンロードして展開する。インストーラ不要のポータブル版で、ComfyUIを含む複数のUIをワンクリックでセットアップできる。
起動したら「Add Package」からComfyUIを選んでインストール。Python仮想環境やPyTorchの依存関係はすべて自動で処理される。
2. FLUX.1 FP8モデルのダウンロード
CivitAIから「Flux.1 Krea Dev CLIP+VAE FP8」をダウンロードする。Single Fileで約20GB。CLIP(テキストエンコーダ)とVAE(デコーダ)が統合されているので、追加のモデルファイルが不要で楽。
ダウンロードはStability Matrixのモデルブラウザからでも、CivitAIから直接でもいい。ファイルは Models/StableDiffusion/ フォルダに配置する。
Stability Matrixが DiffusionModels/ にダウンロードした場合は、StableDiffusion/ に移動するか、extra_model_paths.yaml の checkpoints セクションに DiffusionModels パスを追加する。CheckpointLoaderSimple ノードは checkpoints パスしか参照しないため。
3. VAEファイルの配置
ae.safetensors(FLUX用VAE)を Models/VAE/ に置く。CLIP+VAE統合モデルを使う場合は不要だが、分離ワークフローに切り替えたいときのために入れておくと安心。
4. ComfyUIの起動と確認
Stability MatrixからComfyUIを起動。ブラウザで http://127.0.0.1:8188 にアクセスするとWeb UIが開く。
起動ログに以下が出ていればGPU認識OK:
Device: cuda:0 NVIDIA GeForce RTX 4060 Ti : cudaMallocAsync
Using async weight offloading with 2 streams
async weight offloading が表示されていれば、VRAMに収まらない部分を自動的にシステムRAMにオフロードしてくれる。8GBでも動く仕組みがこれ。
ワークフローの構成
FLUX.1で画像生成するための最小構成は以下の6ノード。
CheckpointLoaderSimple → CLIPTextEncode(positive)
→ CLIPTextEncode(negative)
EmptyLatentImage → KSampler → VAEDecode → SaveImage
FLUX.1固有の設定:
- CFG: 1.0(FLUX.1はCFGをほぼ使わない設計。上げると破綻する)
- Sampler: euler
- Scheduler: simple
- Steps: 20(十分な品質が出る)
ComfyUIのAPI経由でワークフローを投入することもできる。http://127.0.0.1:8188/prompt にJSON形式のワークフローをPOSTすればよい。Claude CodeからComfyUIのAPIを叩いて画像生成を自動化する、という使い方もできた。今回の画像はすべてAPIから生成している。
生成結果
4パターンのプロンプトで生成してみた。すべて768x1024または1024x768、20ステップ、seed固定。
ポートレート
プロンプト: a young Japanese woman in her 20s, professional portrait photo, natural lighting, wearing a white blouse, looking at camera with a gentle smile, sharp focus, high quality, realistic skin texture, studio background

肌の質感がリアル。毛穴や産毛まで描写されている。目のキャッチライトの入り方も自然で、ストックフォトと並べても違和感がない。
ストリートスナップ
プロンプト: a 30 year old man walking in Tokyo Shibuya crossing, candid street photography, golden hour sunlight, shallow depth of field, wearing casual jacket, realistic, high detail

ゴールデンアワーの逆光を指定したら、レンズフレアまで入ってきた。背景のボケ感、横断歩道の白線、周囲の人物のシルエット。構図が「写真として成立している」のが強い。
カフェ
プロンプト: a young woman sitting in a cozy cafe, reading a book, warm ambient lighting, window light, latte on table, natural pose, photorealistic, Canon EOS R5, 85mm lens

窓からの自然光が顔に当たっている感じ、本のページの質感、テーブルの木目。「Canon EOS R5, 85mm lens」とカメラ・レンズを指定すると、被写界深度やボケ味がそれっぽくなる。
ビジネスポートレート
プロンプト: professional headshot of a middle-aged Japanese businessman, wearing dark suit and tie, confident expression, corporate studio lighting, clean background, 4K, photorealistic

スーツの生地感、ネクタイの織り目、年齢相応のシワ。企業サイトの役員写真に使えそうなクオリティ。
生成速度
| フェーズ | 時間 |
|---|---|
| モデルロード(初回) | 約90秒 |
| モデルロード(2回目以降・キャッシュ済み) | 約5秒 |
| サンプリング(20ステップ) | 約35秒 |
| VAEデコード | 約3秒 |
| 合計(初回) | 約130秒 |
| 合計(2回目以降) | 約40秒 |
VRAM 8GBでこの速度なら実用的。RTX 4090(24GB)なら全部VRAMに載るので、半分以下の時間で生成できるはず。
VRAM 8GBで動かすコツ
- FP8量子化モデルを使う: フル精度(BF16)だと24GB必要。FP8なら半分で済む
- CLIP+VAE統合モデルを選ぶ: 別ファイルのCLIPやVAEをロードすると、その分VRAMを食う
- 解像度は768x1024まで: 1024x1024以上だとVRAMが足りなくなることがある
- バッチサイズは1: 複数枚同時生成はVRAM不足になる
- ComfyUIの
async weight offloadingを活かす: v0.20以降で自動的にRAMオフロードしてくれる
まとめ
RTX 4060 Ti(VRAM 8GB)でもFLUX.1は動く。FP8量子化 + ComfyUIの自動オフロードの組み合わせで、1枚40秒程度で実写レベルの人物画像が出る。
Stability Matrixを使えば環境構築のハードルも低い。Python環境やCUDAの設定を手動でやる必要がなく、モデルのダウンロードもGUI上で完結する。
高価なGPUがなくても、ミドルレンジのグラボで十分遊べる時代になった。
参考
この記事は Claude Opus 4.6 が執筆しました。
