「ローカルでAIモデルを動かしてみたいけど、ハードがない」。この壁の前で止まっている人向けに、Google の Gemma 4 をお金もGPUもかけずに触りはじめる道筋をまとめた。これから自分でも導入するための予備調査も兼ねている。
Gemma 4 とは
Gemma 4 は Google(DeepMind)が2026年4月2日に公開したオープンモデルだ。オープンモデルというのは、学習済みのモデル本体(中身のデータ一式)が公開されていて、自分のPCや自前のサーバー、あるいはAPI経由で動かせるもの。AIが学習した結果がまるごと詰まったデータを手に入れれば、手元で同じモデルを再現できる。ChatGPT のように中身が非公開で「相手のサーバーでしか動かない」クローズドなものとは対照的だ。
ポイントを3つだけ押さえれば十分。
- 素性がいい:Google のフラッグシップ Gemini 3 と同じ研究・技術から作られている。サイズのわりに賢い。
- ライセンスが緩い:Apache 2.0。商用利用・改変・再配布が自由。仕事で使ってもいい。
- マルチモーダル:全サイズでテキスト+画像を入力でき、端末向けの小型版は音声も扱う。コンテキスト(一度に読ませられる文章量)は最大256Kトークンと長い。
サイズの選び方
Gemma 4 は5サイズある。数字(B)はパラメータ数=モデルの規模で、大きいほど賢くなるが、その分メモリを多く使い、動作も遅くなる。
- E2B / E4B:実効2B・4B相当。スマホやIoT機器向けで、完全オフラインでも動く軽量版。
- 12B:中間。そこそこのPCで動かしやすい。
- 26B A4B(MoE):MoE は「専門家の集まり」方式(Mixture of Experts)。総量は25B超だが、推論時に使うのは約4Bぶんだけ。31B並みの賢さを、ずっと低い計算コストで出すおいしい選択肢。
- 31B(Dense):旗艦。フル精度で80GBのGPU 1枚に載り、オープンモデルの上位に並ぶ。
迷ったら「手元のマシンが非力なら E4B か 12B、賢さ優先で環境があるなら 26B A4B」あたりが入口になる。
まずは無料で触る(GPU不要)
手元のハードが弱くても、Google AI Studio の無料APIで Gemma 4 を1日1500回まで叩ける。買い物は不要。手順はこれだけ。
- Google AI Studio にログインして Dashboard を開く。
- 「APIキー」→「APIの作成」を選ぶ。
- プロジェクトを新規作成(名前は適当でいい)してキーを発行する。
これで Gemma 4 を呼べるAPIキーが手に入る。あとは対応ツールにこのキーを入れるだけ。たとえばエージェント系のクライアントなら、接続先に Google AI Studio を選び、キーを貼り、モデル名に Gemma 4 系列で最も賢い gemma-4-31b-it(it は指示に従うよう調整した版=instruction-tuned)を指定すれば動く。
無料枠の1日1500回は、個人が試して感触をつかむには十分な量だ。まずここで「自分の用途に合うか」を見極めてから、次の段階を考えればいい。
慣れてきたら、手元で動かす
API で感触がつかめたら、ローカル実行に進む手もある。モデル本体を自分のPCに置いて動かすので、データが外に出ない・回数制限もない・ネットなしでも動く。入口は2つ。
Ollama(コマンド派・いちばん手軽)
Ollama はモデルの取得から起動までをコマンド1つでやってくれるツール。インストール後、こうするだけで動く。
| |
初回だけモデル本体を自動ダウンロードし、次回からは即起動する。サイズ違いはタグで選ぶ(例: 軽くしたいなら小さいパラメータの版、賢さ優先なら大きい版。正確なタグ名は Ollama のモデルライブラリで確認する)。API として使いたいときは ollama serve でローカルサーバーが立ち、http://localhost:11434 経由で他アプリから叩ける。
LM Studio(GUI派・モデル選びが分かりやすい)
LM Studio は画面で操作するアプリ。手順はこう。
- アプリ内の検索で「Gemma 4」を探す。
- 自分のメモリに合う**量子化版(GGUF)**をダウンロードする。量子化はモデルを軽く圧縮して必要メモリを減らす手法で、
Q4あたりが「軽さと賢さのバランス」の定番。 - 読み込んでチャット。OpenAI 互換のローカルAPIサーバーとしても起動できる。
どのサイズが載るかの目安
ざっくり「パラメータ数(B)×0.6〜0.7GB」くらいのメモリがあれば、Q4 量子化版が載る計算になる。
- 8GB級のPC:E4B〜12B が現実的。
- 16〜24GB:12B を快適に、26B A4B(MoE)も狙える。
- 31B フル精度:80GBクラスのGPUが要る。手元で回すなら量子化版+メモリに余裕を。
GPUがなくてもCPUだけで動く(遅いが動く)。Mac の Apple Silicon は CPU/GPU でメモリを共有するので、その容量がそのまま上限になり、ローカルLLMと相性がいい。
まずは Ollama で gemma4 を1回動かしてみる。モデルが手元に残る感覚さえつかめれば、あとはサイズと量子化を調整していくだけだ。
導入の判断(自分用メモ)
- まず AI Studio の無料API で
gemma-4-31b-itを試す。コストゼロで賢さを体験できる。 - 用途が固まって回数や常時稼働が要るなら、ローカル(LM Studio / Ollama) に下ろす。
- スマホ・端末側で動かしたいなら E2B / E4B。
オープンモデルは「モデル本体が手元に残る」のが強みだ。サービスの値上げや終了に振り回されにくい。まずは無料枠で、損なく一歩を踏み出せる。
参考
- Gemma 4: Byte for byte, the most capable open models(Google 公式ブログ)
- Gemma 4 model overview(Google AI for Developers)
- Gemma 4 Guide: E2B, E4B, 26B MoE & 31B Open Weights(Codersera)
この記事は Claude Code(Opus 4.8)が執筆しました。
