移动端指南

Gemma 4 运行在 iPhone 上

直接在 iPhone 上运行 Google 的 Gemma 4——无需云端，无需订阅，完全保护隐私。E2B 边缘模型体积不到 5 GB，在 iPhone 15 Pro 及更新机型上可实现实时推理。

iOS Swift Metal GPU On-Device Offline

为什么在 iPhone 上运行 Gemma 4？

完全隐私——数据永不离开设备
完全离线工作，无需联网
零 API 费用——下载后免费运行
在 A17 Pro / A18 芯片上响应时间低于一秒

方法一 — Google AI Edge SDK（Swift）

官方推荐路径。Google AI Edge 提供原生 Swift 包，通过 Metal GPU 加速运行 Gemma 4。

在 Xcode 项目中添加 Google AI Edge Swift 包
下载 TensorFlow Lite / LiteRT 格式的 E2B 模型权重
初始化会话并调用 generate()

Package.swift

// Package.swift
dependencies: [
    .package(
        url: "https://github.com/google/generative-ai-swift",
        from: "0.5.0"
    )
]

Swift Inference

import GoogleAIEdge

// Load E2B model (place .task file in app bundle)
let modelPath = Bundle.main.path(forResource: "gemma4-e2b-it-q4", ofType: "task")!
let session = try LlmInference(modelPath: modelPath)

// Generate response
let response = try await session.generateResponse(
    inputText: "Explain quantum computing in simple terms."
)
print(response)

方法二 — GGUF via llama.cpp（LLM Farm / Offline Chat）

适合偏好现成 iOS 应用的用户。App Store 上的 LLM Farm 和 Offline Chat 底层均使用 llama.cpp，支持 Gemma GGUF 模型。从 Hugging Face 下载 Q4_K_M 量化的 GGUF 文件，在 App 中导入即可开始聊天，无需编写代码。

LLM Farm

Free, open-source, supports custom GGUF import. Available on App Store.

Offline Chat

Simple UI, built-in model browser, supports Gemma GGUF natively.

方法三 — Mac 上运行 Ollama，iPhone 远程访问

已在 Mac 上运行 Ollama？在本地网络暴露 API，通过任意支持 OpenAI 兼容接口的 App（如 Enchanted、OllamaChat）从 iPhone 连接。在 Mac 上设置 OLLAMA_HOST=0.0.0.0，然后将 App 指向 http://你的Mac-IP:11434。

# On your Mac — allow LAN access
export OLLAMA_HOST=0.0.0.0
ollama serve

# Pull Gemma 4 E2B if not already done
ollama pull gemma4:e2b

# iPhone app settings:
# Base URL: http://192.168.x.x:11434  (your Mac's local IP)
# Model: gemma4:e2b

iPhone 硬件要求

iPhone	Chip	GPU Acceleration	E2B Q4 Speed
iPhone 16 Pro / Max	A18 Pro	Metal — Full	18–24 tok/s
iPhone 16 / Plus	A18	Metal — Full	15–20 tok/s
iPhone 15 Pro / Max	A17 Pro	Metal — Full	12–18 tok/s
iPhone 15 / Plus	A16	Metal — Partial	6–10 tok/s
iPhone 14 series	A15	CPU fallback	3–5 tok/s
iPhone 13 and older	A15 / A14	CPU only	2–3 tok/s

旧款 iPhone 可通过 CPU 推理运行 E2B 模型，但速度较慢（每秒 2–4 个 token）。iPhone 15 Pro 及更新款搭载 A17 Pro 芯片，支持 Metal GPU 加速，速度达到实用实时水平。

性能基准测试

Task	iPhone 15 Pro (A17)	iPhone 16 Pro (A18 Pro)
Text generation (tok/s)	14	21
First token latency	~0.4s	~0.25s
512→512 token throughput	11 tok/s	17 tok/s
RAM usage (peak)	2.8 GB	2.6 GB
Battery drain (per hour)	~18%	~14%

测试条件：Gemma 4 E2B Q4_K_M，512 token 提示词，使用 Metal GPU。纯 CPU 模式速度慢 3–5 倍。

最佳性能使用技巧

使用 Q4_K_M 量化——移动端最佳质量/速度平衡点
推理前关闭其他应用以释放内存
将提示词控制在 2K token 以内以获得最快响应
长时间使用时请连接充电器——推理会大量消耗 GPU 资源

Model	Download	Active RAM	Speed (A17 Pro)	Recommendation
Gemma 4 E2B Q4_K_M	~2.4 GB	~2.5 GB	12–18 tok/s	Best for iPhone
Gemma 4 E2B BF16	~4.6 GB	~4.8 GB	6–10 tok/s	Max quality
Gemma 4 E4B Q4_K_M	~4.2 GB	~4.5 GB	7–11 tok/s	Higher quality