VRAM 8GBのRTX 4060 TiでFLUX.1の人物画像を生成する — ComfyUI環境構築から実写レベルの出力まで

FLUX.1で生成した人物画像のクオリティが気になっていたので、手持ちのRTX 4060 Ti（VRAM 8GB）で試してみた。結論から言うと、FP8量子化モデルを使えば8GBでも実用的な品質の画像が出る。1枚40秒ほど。

この記事では Stability Matrix + ComfyUI での環境構築手順と、実際に生成した画像を載せる。

使った環境

項目	スペック
GPU	NVIDIA GeForce RTX 4060 Ti（VRAM 8GB）
RAM	32GB
OS	Windows 11
ComfyUI	v0.20.1（Stability Matrix経由）
モデル	Flux.1 Krea Dev CLIP+VAE FP8（約20GB）
PyTorch	2.11.0+cu130

VRAM 8GBでFLUX.1を動かすポイントはFP8量子化。フルモデルだと24GB必要だが、FP8ならVRAM 8GB + システムRAMへのオフロードで動く。

環境構築の手順

1. Stability Matrixのインストール

Stability Matrixをダウンロードして展開する。インストーラ不要のポータブル版で、ComfyUIを含む複数のUIをワンクリックでセットアップできる。

起動したら「Add Package」からComfyUIを選んでインストール。Python仮想環境やPyTorchの依存関係はすべて自動で処理される。

2. FLUX.1 FP8モデルのダウンロード

CivitAIから「Flux.1 Krea Dev CLIP+VAE FP8」をダウンロードする。Single Fileで約20GB。CLIP（テキストエンコーダ）とVAE（デコーダ）が統合されているので、追加のモデルファイルが不要で楽。

ダウンロードはStability Matrixのモデルブラウザからでも、CivitAIから直接でもいい。ファイルは Models/StableDiffusion/ フォルダに配置する。

Stability Matrixが DiffusionModels/ にダウンロードした場合は、StableDiffusion/ に移動するか、extra_model_paths.yaml の checkpoints セクションに DiffusionModels パスを追加する。CheckpointLoaderSimple ノードは checkpoints パスしか参照しないため。

3. VAEファイルの配置

ae.safetensors（FLUX用VAE）を Models/VAE/ に置く。CLIP+VAE統合モデルを使う場合は不要だが、分離ワークフローに切り替えたいときのために入れておくと安心。

4. ComfyUIの起動と確認

Stability MatrixからComfyUIを起動。ブラウザで http://127.0.0.1:8188 にアクセスするとWeb UIが開く。

起動ログに以下が出ていればGPU認識OK：

Device: cuda:0 NVIDIA GeForce RTX 4060 Ti : cudaMallocAsync
Using async weight offloading with 2 streams

async weight offloading が表示されていれば、VRAMに収まらない部分を自動的にシステムRAMにオフロードしてくれる。8GBでも動く仕組みがこれ。

ワークフローの構成

FLUX.1で画像生成するための最小構成は以下の6ノード。

CheckpointLoaderSimple → CLIPTextEncode(positive)
                        → CLIPTextEncode(negative)
EmptyLatentImage       → KSampler → VAEDecode → SaveImage

FLUX.1固有の設定：

CFG: 1.0（FLUX.1はCFGをほぼ使わない設計。上げると破綻する）
Sampler: euler
Scheduler: simple
Steps: 20（十分な品質が出る）

ComfyUIのAPI経由でワークフローを投入することもできる。http://127.0.0.1:8188/prompt にJSON形式のワークフローをPOSTすればよい。Claude CodeからComfyUIのAPIを叩いて画像生成を自動化する、という使い方もできた。今回の画像はすべてAPIから生成している。

生成結果

4パターンのプロンプトで生成してみた。すべて768x1024または1024x768、20ステップ、seed固定。

ポートレート

プロンプト: a young Japanese woman in her 20s, professional portrait photo, natural lighting, wearing a white blouse, looking at camera with a gentle smile, sharp focus, high quality, realistic skin texture, studio background

ポートレート — スタジオ照明で撮影したような品質

肌の質感がリアル。毛穴や産毛まで描写されている。目のキャッチライトの入り方も自然で、ストックフォトと並べても違和感がない。

ストリートスナップ

プロンプト: a 30 year old man walking in Tokyo Shibuya crossing, candid street photography, golden hour sunlight, shallow depth of field, wearing casual jacket, realistic, high detail

渋谷交差点のストリートスナップ — 逆光のレンズフレアまで再現

ゴールデンアワーの逆光を指定したら、レンズフレアまで入ってきた。背景のボケ感、横断歩道の白線、周囲の人物のシルエット。構図が「写真として成立している」のが強い。

カフェ

プロンプト: a young woman sitting in a cozy cafe, reading a book, warm ambient lighting, window light, latte on table, natural pose, photorealistic, Canon EOS R5, 85mm lens

カフェで読書する女性 — 窓光の柔らかさが際立つ

窓からの自然光が顔に当たっている感じ、本のページの質感、テーブルの木目。「Canon EOS R5, 85mm lens」とカメラ・レンズを指定すると、被写界深度やボケ味がそれっぽくなる。

ビジネスポートレート

プロンプト: professional headshot of a middle-aged Japanese businessman, wearing dark suit and tie, confident expression, corporate studio lighting, clean background, 4K, photorealistic

ビジネスマンのヘッドショット — 証明写真レベル

スーツの生地感、ネクタイの織り目、年齢相応のシワ。企業サイトの役員写真に使えそうなクオリティ。

生成速度

フェーズ	時間
モデルロード（初回）	約90秒
モデルロード（2回目以降・キャッシュ済み）	約5秒
サンプリング（20ステップ）	約35秒
VAEデコード	約3秒
合計（初回）	約130秒
合計（2回目以降）	約40秒

VRAM 8GBでこの速度なら実用的。RTX 4090（24GB）なら全部VRAMに載るので、半分以下の時間で生成できるはず。

VRAM 8GBで動かすコツ

FP8量子化モデルを使う: フル精度（BF16）だと24GB必要。FP8なら半分で済む
CLIP+VAE統合モデルを選ぶ: 別ファイルのCLIPやVAEをロードすると、その分VRAMを食う
解像度は768x1024まで: 1024x1024以上だとVRAMが足りなくなることがある
バッチサイズは1: 複数枚同時生成はVRAM不足になる
ComfyUIのasync weight offloadingを活かす: v0.20以降で自動的にRAMオフロードしてくれる

まとめ

RTX 4060 Ti（VRAM 8GB）でもFLUX.1は動く。FP8量子化 + ComfyUIの自動オフロードの組み合わせで、1枚40秒程度で実写レベルの人物画像が出る。

Stability Matrixを使えば環境構築のハードルも低い。Python環境やCUDAの設定を手動でやる必要がなく、モデルのダウンロードもGUI上で完結する。

高価なGPUがなくても、ミドルレンジのグラボで十分遊べる時代になった。

参考

この記事は Claude Opus 4.6 が執筆しました。