モバイルガイド
Gemma 4 iPhone で動かす
GoogleのGemma 4をiPhone上で直接実行 — クラウド不要、サブスクリプション不要、完全プライバシー。E2Bエッジモデルは5GB未満で、iPhone 15 Pro以降でリアルタイム推論を実現します。
iPhoneでGemma 4を動かす理由
- 完全なプライバシー — データはデバイスの外に出ない
- 完全オフライン動作、インターネット不要
- API費用ゼロ — ダウンロード後は無料で実行
- A17 Pro / A18チップで1秒未満のレスポンス
推奨モデル
| Model | Download | Active RAM | Speed (A17 Pro) | Recommendation |
|---|---|---|---|---|
| Gemma 4 E2B Q4_K_M | ~2.4 GB | ~2.5 GB | 12–18 tok/s | Best for iPhone |
| Gemma 4 E2B BF16 | ~4.6 GB | ~4.8 GB | 6–10 tok/s | Max quality |
| Gemma 4 E4B Q4_K_M | ~4.2 GB | ~4.5 GB | 7–11 tok/s | Higher quality |
E2BモデルがiPhoneの最有力候補です。ダウンロードサイズ約4.6GBでiPhoneストレージに余裕で収まり、4ビット量化後のアクティブRAMは約2.5GB — iPhone 15/16シリーズのメモリ予算内に十分収まります。
メソッド1 — Google AI Edge SDK(Swift)
公式の方法。Google AI EdgeはMetal GPUアクセラレーションでGemma 4を動かすネイティブSwiftパッケージを提供しています。
- XcodeプロジェクトにGoogle AI Edge Swiftパッケージを追加
- TensorFlow Lite / LiteRT形式のE2Bモデルウェイトをダウンロード
- セッションを初期化してgenerate()を呼び出す
Package.swift
// Package.swift
dependencies: [
.package(
url: "https://github.com/google/generative-ai-swift",
from: "0.5.0"
)
]Swift Inference
import GoogleAIEdge
// Load E2B model (place .task file in app bundle)
let modelPath = Bundle.main.path(forResource: "gemma4-e2b-it-q4", ofType: "task")!
let session = try LlmInference(modelPath: modelPath)
// Generate response
let response = try await session.generateResponse(
inputText: "Explain quantum computing in simple terms."
)
print(response)メソッド2 — GGUF via llama.cpp(LLM Farm / Offline Chat)
既製のiOSアプリを好むユーザー向け。App StoreのLLM FarmとOffline Chatはどちらもllama.cppをベースにしており、Gemma GGUFモデルをサポートしています。Hugging FaceからQ4_K_M量化GGUFをダウンロードし、アプリにインポートするだけでチャット開始。コード不要。
LLM Farm
Free, open-source, supports custom GGUF import. Available on App Store.
Offline Chat
Simple UI, built-in model browser, supports Gemma GGUF natively.
メソッド3 — MacでOllama実行、iPhoneからアクセス
すでにMacでOllamaを動かしていますか?ローカルネットワークにAPIを公開し、OpenAI互換アプリ(EnchantedやOllamaChatなど)からiPhoneで接続できます。MacでOLLAMA_HOST=0.0.0.0を設定し、アプリをhttp://あなたのMacのIP:11434に向けてください。
# On your Mac — allow LAN access
export OLLAMA_HOST=0.0.0.0
ollama serve
# Pull Gemma 4 E2B if not already done
ollama pull gemma4:e2b
# iPhone app settings:
# Base URL: http://192.168.x.x:11434 (your Mac's local IP)
# Model: gemma4:e2biPhoneのハードウェア要件
| iPhone | Chip | GPU Acceleration | E2B Q4 Speed |
|---|---|---|---|
| iPhone 16 Pro / Max | A18 Pro | Metal — Full | 18–24 tok/s |
| iPhone 16 / Plus | A18 | Metal — Full | 15–20 tok/s |
| iPhone 15 Pro / Max | A17 Pro | Metal — Full | 12–18 tok/s |
| iPhone 15 / Plus | A16 | Metal — Partial | 6–10 tok/s |
| iPhone 14 series | A15 | CPU fallback | 3–5 tok/s |
| iPhone 13 and older | A15 / A14 | CPU only | 2–3 tok/s |
旧型iPhoneでもCPU推論でE2Bモデルを動かせますが速度は遅い(毎秒2〜4トークン)。iPhone 15 Pro以降でA17 Proチップを搭載したモデルはMetal GPUアクセラレーションが有効になり、実用的なリアルタイム速度を実現します。
パフォーマンスベンチマーク
| Task | iPhone 15 Pro (A17) | iPhone 16 Pro (A18 Pro) |
|---|---|---|
| Text generation (tok/s) | 14 | 21 |
| First token latency | ~0.4s | ~0.25s |
| 512→512 token throughput | 11 tok/s | 17 tok/s |
| RAM usage (peak) | 2.8 GB | 2.6 GB |
| Battery drain (per hour) | ~18% | ~14% |
Gemma 4 E2B Q4_K_M、512トークンプロンプト、Metal GPU使用時のトークン/秒。CPU専用フォールバックは3〜5倍遅くなります。
最高のパフォーマンスのためのヒント
- Q4_K_M量化を使用 — モバイルで最高の品質/速度バランス
- 推論前に他のアプリを閉じてRAMを解放
- 最速レスポンスのためプロンプトを2Kトークン以内に収める
- 長時間使用時は充電器を接続 — 推論はGPUを多用