モバイルガイド

Gemma 4 iPhone で動かす

GoogleのGemma 4をiPhone上で直接実行 — クラウド不要、サブスクリプション不要、完全プライバシー。E2Bエッジモデルは5GB未満で、iPhone 15 Pro以降でリアルタイム推論を実現します。

iOS Swift Metal GPU On-Device Offline

iPhoneでGemma 4を動かす理由

完全なプライバシー — データはデバイスの外に出ない
完全オフライン動作、インターネット不要
API費用ゼロ — ダウンロード後は無料で実行
A17 Pro / A18チップで1秒未満のレスポンス

推奨モデル

Model	Download	Active RAM	Speed (A17 Pro)	Recommendation
Gemma 4 E2B Q4_K_M	~2.4 GB	~2.5 GB	12–18 tok/s	Best for iPhone
Gemma 4 E2B BF16	~4.6 GB	~4.8 GB	6–10 tok/s	Max quality
Gemma 4 E4B Q4_K_M	~4.2 GB	~4.5 GB	7–11 tok/s	Higher quality

E2BモデルがiPhoneの最有力候補です。ダウンロードサイズ約4.6GBでiPhoneストレージに余裕で収まり、4ビット量化後のアクティブRAMは約2.5GB — iPhone 15/16シリーズのメモリ予算内に十分収まります。

メソッド1 — Google AI Edge SDK（Swift）

公式の方法。Google AI EdgeはMetal GPUアクセラレーションでGemma 4を動かすネイティブSwiftパッケージを提供しています。

XcodeプロジェクトにGoogle AI Edge Swiftパッケージを追加
TensorFlow Lite / LiteRT形式のE2Bモデルウェイトをダウンロード
セッションを初期化してgenerate()を呼び出す

Package.swift

// Package.swift
dependencies: [
    .package(
        url: "https://github.com/google/generative-ai-swift",
        from: "0.5.0"
    )
]

Swift Inference

import GoogleAIEdge

// Load E2B model (place .task file in app bundle)
let modelPath = Bundle.main.path(forResource: "gemma4-e2b-it-q4", ofType: "task")!
let session = try LlmInference(modelPath: modelPath)

// Generate response
let response = try await session.generateResponse(
    inputText: "Explain quantum computing in simple terms."
)
print(response)

メソッド2 — GGUF via llama.cpp（LLM Farm / Offline Chat）

既製のiOSアプリを好むユーザー向け。App StoreのLLM FarmとOffline Chatはどちらもllama.cppをベースにしており、Gemma GGUFモデルをサポートしています。Hugging FaceからQ4_K_M量化GGUFをダウンロードし、アプリにインポートするだけでチャット開始。コード不要。

LLM Farm

Free, open-source, supports custom GGUF import. Available on App Store.

Offline Chat

Simple UI, built-in model browser, supports Gemma GGUF natively.

メソッド3 — MacでOllama実行、iPhoneからアクセス

すでにMacでOllamaを動かしていますか？ローカルネットワークにAPIを公開し、OpenAI互換アプリ（EnchantedやOllamaChatなど）からiPhoneで接続できます。MacでOLLAMA_HOST=0.0.0.0を設定し、アプリをhttp://あなたのMacのIP:11434に向けてください。

# On your Mac — allow LAN access
export OLLAMA_HOST=0.0.0.0
ollama serve

# Pull Gemma 4 E2B if not already done
ollama pull gemma4:e2b

# iPhone app settings:
# Base URL: http://192.168.x.x:11434  (your Mac's local IP)
# Model: gemma4:e2b

iPhoneのハードウェア要件

iPhone	Chip	GPU Acceleration	E2B Q4 Speed
iPhone 16 Pro / Max	A18 Pro	Metal — Full	18–24 tok/s
iPhone 16 / Plus	A18	Metal — Full	15–20 tok/s
iPhone 15 Pro / Max	A17 Pro	Metal — Full	12–18 tok/s
iPhone 15 / Plus	A16	Metal — Partial	6–10 tok/s
iPhone 14 series	A15	CPU fallback	3–5 tok/s
iPhone 13 and older	A15 / A14	CPU only	2–3 tok/s

旧型iPhoneでもCPU推論でE2Bモデルを動かせますが速度は遅い（毎秒2〜4トークン）。iPhone 15 Pro以降でA17 Proチップを搭載したモデルはMetal GPUアクセラレーションが有効になり、実用的なリアルタイム速度を実現します。

パフォーマンスベンチマーク

Task	iPhone 15 Pro (A17)	iPhone 16 Pro (A18 Pro)
Text generation (tok/s)	14	21
First token latency	~0.4s	~0.25s
512→512 token throughput	11 tok/s	17 tok/s
RAM usage (peak)	2.8 GB	2.6 GB
Battery drain (per hour)	~18%	~14%

Gemma 4 E2B Q4_K_M、512トークンプロンプト、Metal GPU使用時のトークン/秒。CPU専用フォールバックは3〜5倍遅くなります。

最高のパフォーマンスのためのヒント

Q4_K_M量化を使用 — モバイルで最高の品質/速度バランス
推論前に他のアプリを閉じてRAMを解放
最速レスポンスのためプロンプトを2Kトークン以内に収める
長時間使用時は充電器を接続 — 推論はGPUを多用