Gemma 4 を無料で触りはじめる ── GPUを買わずにオープンモデルを動かす最初の一歩

「ローカルでAIモデルを動かしてみたいけど、ハードがない」。この壁の前で止まっている人向けに、Google の Gemma 4 をお金もGPUもかけずに触りはじめる道筋をまとめた。これから自分でも導入するための予備調査も兼ねている。

Gemma 4 とは

Gemma 4 は Google（DeepMind）が2026年4月2日に公開したオープンモデルだ。オープンモデルというのは、学習済みのモデル本体（中身のデータ一式）が公開されていて、自分のPCや自前のサーバー、あるいはAPI経由で動かせるもの。AIが学習した結果がまるごと詰まったデータを手に入れれば、手元で同じモデルを再現できる。ChatGPT のように中身が非公開で「相手のサーバーでしか動かない」クローズドなものとは対照的だ。

ポイントを3つだけ押さえれば十分。

素性がいい：Google のフラッグシップ Gemini 3 と同じ研究・技術から作られている。サイズのわりに賢い。
ライセンスが緩い：Apache 2.0。商用利用・改変・再配布が自由。仕事で使ってもいい。
マルチモーダル：全サイズでテキスト＋画像を入力でき、端末向けの小型版は音声も扱う。コンテキスト（一度に読ませられる文章量）は最大256Kトークンと長い。

サイズの選び方

Gemma 4 は5サイズある。数字（B）はパラメータ数＝モデルの規模で、大きいほど賢くなるが、その分メモリを多く使い、動作も遅くなる。

E2B / E4B：実効2B・4B相当。スマホやIoT機器向けで、完全オフラインでも動く軽量版。
12B：中間。そこそこのPCで動かしやすい。
26B A4B（MoE）：MoE は「専門家の集まり」方式（Mixture of Experts）。総量は25B超だが、推論時に使うのは約4Bぶんだけ。31B並みの賢さを、ずっと低い計算コストで出すおいしい選択肢。
31B（Dense）：旗艦。フル精度で80GBのGPU 1枚に載り、オープンモデルの上位に並ぶ。

迷ったら「手元のマシンが非力なら E4B か 12B、賢さ優先で環境があるなら 26B A4B」あたりが入口になる。

まずは無料で触る（GPU不要）

手元のハードが弱くても、Google AI Studio の無料APIで Gemma 4 を1日1500回まで叩ける。買い物は不要。手順はこれだけ。

Google AI Studio にログインして Dashboard を開く。
「APIキー」→「APIの作成」を選ぶ。
プロジェクトを新規作成（名前は適当でいい）してキーを発行する。

これで Gemma 4 を呼べるAPIキーが手に入る。あとは対応ツールにこのキーを入れるだけ。たとえばエージェント系のクライアントなら、接続先に Google AI Studio を選び、キーを貼り、モデル名に Gemma 4 系列で最も賢い gemma-4-31b-it（it は指示に従うよう調整した版＝instruction-tuned）を指定すれば動く。

無料枠の1日1500回は、個人が試して感触をつかむには十分な量だ。まずここで「自分の用途に合うか」を見極めてから、次の段階を考えればいい。

慣れてきたら、手元で動かす

API で感触がつかめたら、ローカル実行に進む手もある。モデル本体を自分のPCに置いて動かすので、データが外に出ない・回数制限もない・ネットなしでも動く。入口は2つ。

Ollama（コマンド派・いちばん手軽）

Ollama はモデルの取得から起動までをコマンド1つでやってくれるツール。インストール後、こうするだけで動く。

1
ollama run gemma4

初回だけモデル本体を自動ダウンロードし、次回からは即起動する。サイズ違いはタグで選ぶ（例: 軽くしたいなら小さいパラメータの版、賢さ優先なら大きい版。正確なタグ名は Ollama のモデルライブラリで確認する）。API として使いたいときは ollama serve でローカルサーバーが立ち、http://localhost:11434 経由で他アプリから叩ける。

LM Studio（GUI派・モデル選びが分かりやすい）

LM Studio は画面で操作するアプリ。手順はこう。

アプリ内の検索で「Gemma 4」を探す。
自分のメモリに合う**量子化版（GGUF）**をダウンロードする。量子化はモデルを軽く圧縮して必要メモリを減らす手法で、Q4 あたりが「軽さと賢さのバランス」の定番。
読み込んでチャット。OpenAI 互換のローカルAPIサーバーとしても起動できる。

どのサイズが載るかの目安

ざっくり「パラメータ数（B）×0.6〜0.7GB」くらいのメモリがあれば、Q4 量子化版が載る計算になる。

8GB級のPC：E4B〜12B が現実的。
16〜24GB：12B を快適に、26B A4B（MoE）も狙える。
31B フル精度：80GBクラスのGPUが要る。手元で回すなら量子化版＋メモリに余裕を。

GPUがなくてもCPUだけで動く（遅いが動く）。Mac の Apple Silicon は CPU/GPU でメモリを共有するので、その容量がそのまま上限になり、ローカルLLMと相性がいい。

まずは Ollama で gemma4 を1回動かしてみる。モデルが手元に残る感覚さえつかめれば、あとはサイズと量子化を調整していくだけだ。

導入の判断（自分用メモ）

まず AI Studio の無料API で gemma-4-31b-it を試す。コストゼロで賢さを体験できる。
用途が固まって回数や常時稼働が要るなら、ローカル（LM Studio / Ollama） に下ろす。
スマホ・端末側で動かしたいなら E2B / E4B。

オープンモデルは「モデル本体が手元に残る」のが強みだ。サービスの値上げや終了に振り回されにくい。まずは無料枠で、損なく一歩を踏み出せる。

参考

この記事は Claude Code（Opus 4.8）が執筆しました。