Featured image of post Gemma 4 を無料で触りはじめる ── GPUを買わずにオープンモデルを動かす最初の一歩

Gemma 4 を無料で触りはじめる ── GPUを買わずにオープンモデルを動かす最初の一歩

「ローカルでAIモデルを動かしてみたいけど、ハードがない」。この壁の前で止まっている人向けに、Google の Gemma 4お金もGPUもかけずに触りはじめる道筋をまとめた。これから自分でも導入するための予備調査も兼ねている。

Gemma 4 とは

Gemma 4 は Google(DeepMind)が2026年4月2日に公開したオープンモデルだ。オープンモデルというのは、学習済みのモデル本体(中身のデータ一式)が公開されていて、自分のPCや自前のサーバー、あるいはAPI経由で動かせるもの。AIが学習した結果がまるごと詰まったデータを手に入れれば、手元で同じモデルを再現できる。ChatGPT のように中身が非公開で「相手のサーバーでしか動かない」クローズドなものとは対照的だ。

ポイントを3つだけ押さえれば十分。

  • 素性がいい:Google のフラッグシップ Gemini 3 と同じ研究・技術から作られている。サイズのわりに賢い。
  • ライセンスが緩い:Apache 2.0。商用利用・改変・再配布が自由。仕事で使ってもいい。
  • マルチモーダル:全サイズでテキスト+画像を入力でき、端末向けの小型版は音声も扱う。コンテキスト(一度に読ませられる文章量)は最大256Kトークンと長い。

サイズの選び方

Gemma 4 は5サイズある。数字(B)はパラメータ数=モデルの規模で、大きいほど賢くなるが、その分メモリを多く使い、動作も遅くなる。

  • E2B / E4B:実効2B・4B相当。スマホやIoT機器向けで、完全オフラインでも動く軽量版。
  • 12B:中間。そこそこのPCで動かしやすい。
  • 26B A4B(MoE):MoE は「専門家の集まり」方式(Mixture of Experts)。総量は25B超だが、推論時に使うのは約4Bぶんだけ。31B並みの賢さを、ずっと低い計算コストで出すおいしい選択肢。
  • 31B(Dense):旗艦。フル精度で80GBのGPU 1枚に載り、オープンモデルの上位に並ぶ。

迷ったら「手元のマシンが非力なら E4B か 12B、賢さ優先で環境があるなら 26B A4B」あたりが入口になる。

まずは無料で触る(GPU不要)

手元のハードが弱くても、Google AI Studio の無料APIで Gemma 4 を1日1500回まで叩ける。買い物は不要。手順はこれだけ。

  1. Google AI Studio にログインして Dashboard を開く。
  2. 「APIキー」→「APIの作成」を選ぶ。
  3. プロジェクトを新規作成(名前は適当でいい)してキーを発行する。

これで Gemma 4 を呼べるAPIキーが手に入る。あとは対応ツールにこのキーを入れるだけ。たとえばエージェント系のクライアントなら、接続先に Google AI Studio を選び、キーを貼り、モデル名に Gemma 4 系列で最も賢い gemma-4-31b-itit は指示に従うよう調整した版=instruction-tuned)を指定すれば動く。

無料枠の1日1500回は、個人が試して感触をつかむには十分な量だ。まずここで「自分の用途に合うか」を見極めてから、次の段階を考えればいい。

慣れてきたら、手元で動かす

API で感触がつかめたら、ローカル実行に進む手もある。モデル本体を自分のPCに置いて動かすので、データが外に出ない・回数制限もない・ネットなしでも動く。入口は2つ。

Ollama(コマンド派・いちばん手軽)

Ollama はモデルの取得から起動までをコマンド1つでやってくれるツール。インストール後、こうするだけで動く。

1
ollama run gemma4

初回だけモデル本体を自動ダウンロードし、次回からは即起動する。サイズ違いはタグで選ぶ(例: 軽くしたいなら小さいパラメータの版、賢さ優先なら大きい版。正確なタグ名は Ollama のモデルライブラリで確認する)。API として使いたいときは ollama serve でローカルサーバーが立ち、http://localhost:11434 経由で他アプリから叩ける。

LM Studio(GUI派・モデル選びが分かりやすい)

LM Studio は画面で操作するアプリ。手順はこう。

  1. アプリ内の検索で「Gemma 4」を探す。
  2. 自分のメモリに合う**量子化版(GGUF)**をダウンロードする。量子化はモデルを軽く圧縮して必要メモリを減らす手法で、Q4 あたりが「軽さと賢さのバランス」の定番。
  3. 読み込んでチャット。OpenAI 互換のローカルAPIサーバーとしても起動できる。

どのサイズが載るかの目安

ざっくり「パラメータ数(B)×0.6〜0.7GB」くらいのメモリがあれば、Q4 量子化版が載る計算になる。

  • 8GB級のPC:E4B〜12B が現実的。
  • 16〜24GB:12B を快適に、26B A4B(MoE)も狙える。
  • 31B フル精度:80GBクラスのGPUが要る。手元で回すなら量子化版+メモリに余裕を。

GPUがなくてもCPUだけで動く(遅いが動く)。Mac の Apple Silicon は CPU/GPU でメモリを共有するので、その容量がそのまま上限になり、ローカルLLMと相性がいい。

まずは Ollama で gemma4 を1回動かしてみる。モデルが手元に残る感覚さえつかめれば、あとはサイズと量子化を調整していくだけだ。

導入の判断(自分用メモ)

  • まず AI Studio の無料APIgemma-4-31b-it を試す。コストゼロで賢さを体験できる。
  • 用途が固まって回数や常時稼働が要るなら、ローカル(LM Studio / Ollama) に下ろす。
  • スマホ・端末側で動かしたいなら E2B / E4B

オープンモデルは「モデル本体が手元に残る」のが強みだ。サービスの値上げや終了に振り回されにくい。まずは無料枠で、損なく一歩を踏み出せる。

参考

この記事は Claude Code(Opus 4.8)が執筆しました。

Next Action

おすすめリンク

この記事に合わせて、関連アイテムを探しやすいリンクをまとめています。

Affiliate Links

AI学習まわりを探す

AIを理解したい読者向けに、本で深掘りしやすい導線を優先します。

AIエージェント設計の本を探す Claude、LLM、エージェント設計を深掘りしたい時向け
生成AIの本を探す 入門書、活用本、プロンプト本向け
AI開発・Python本を探す API連携や実装まで踏み込みたい時向け

外部ストアへのアフィリエイトリンクです。気になるものだけ開けば十分です。

Hugo で構築されています。
テーマ StackJimmy によって設計されています。
B!