移动端指南
Gemma 4 运行在 iPhone 上
直接在 iPhone 上运行 Google 的 Gemma 4——无需云端,无需订阅,完全保护隐私。E2B 边缘模型体积不到 5 GB,在 iPhone 15 Pro 及更新机型上可实现实时推理。
为什么在 iPhone 上运行 Gemma 4?
- 完全隐私——数据永不离开设备
- 完全离线工作,无需联网
- 零 API 费用——下载后免费运行
- 在 A17 Pro / A18 芯片上响应时间低于一秒
推荐使用哪个模型
| Model | Download | Active RAM | Speed (A17 Pro) | Recommendation |
|---|---|---|---|---|
| Gemma 4 E2B Q4_K_M | ~2.4 GB | ~2.5 GB | 12–18 tok/s | Best for iPhone |
| Gemma 4 E2B BF16 | ~4.6 GB | ~4.8 GB | 6–10 tok/s | Max quality |
| Gemma 4 E4B Q4_K_M | ~4.2 GB | ~4.5 GB | 7–11 tok/s | Higher quality |
E2B 模型是 iPhone 的首选推荐。下载大小约 4.6 GB,轻松适配 iPhone 存储空间,4-bit 量化后活跃内存约 2.5 GB——完全在 iPhone 15/16 系列的内存预算之内。
方法一 — Google AI Edge SDK(Swift)
官方推荐路径。Google AI Edge 提供原生 Swift 包,通过 Metal GPU 加速运行 Gemma 4。
- 在 Xcode 项目中添加 Google AI Edge Swift 包
- 下载 TensorFlow Lite / LiteRT 格式的 E2B 模型权重
- 初始化会话并调用 generate()
Package.swift
// Package.swift
dependencies: [
.package(
url: "https://github.com/google/generative-ai-swift",
from: "0.5.0"
)
]Swift Inference
import GoogleAIEdge
// Load E2B model (place .task file in app bundle)
let modelPath = Bundle.main.path(forResource: "gemma4-e2b-it-q4", ofType: "task")!
let session = try LlmInference(modelPath: modelPath)
// Generate response
let response = try await session.generateResponse(
inputText: "Explain quantum computing in simple terms."
)
print(response)方法二 — GGUF via llama.cpp(LLM Farm / Offline Chat)
适合偏好现成 iOS 应用的用户。App Store 上的 LLM Farm 和 Offline Chat 底层均使用 llama.cpp,支持 Gemma GGUF 模型。从 Hugging Face 下载 Q4_K_M 量化的 GGUF 文件,在 App 中导入即可开始聊天,无需编写代码。
LLM Farm
Free, open-source, supports custom GGUF import. Available on App Store.
Offline Chat
Simple UI, built-in model browser, supports Gemma GGUF natively.
方法三 — Mac 上运行 Ollama,iPhone 远程访问
已在 Mac 上运行 Ollama?在本地网络暴露 API,通过任意支持 OpenAI 兼容接口的 App(如 Enchanted、OllamaChat)从 iPhone 连接。在 Mac 上设置 OLLAMA_HOST=0.0.0.0,然后将 App 指向 http://你的Mac-IP:11434。
# On your Mac — allow LAN access
export OLLAMA_HOST=0.0.0.0
ollama serve
# Pull Gemma 4 E2B if not already done
ollama pull gemma4:e2b
# iPhone app settings:
# Base URL: http://192.168.x.x:11434 (your Mac's local IP)
# Model: gemma4:e2biPhone 硬件要求
| iPhone | Chip | GPU Acceleration | E2B Q4 Speed |
|---|---|---|---|
| iPhone 16 Pro / Max | A18 Pro | Metal — Full | 18–24 tok/s |
| iPhone 16 / Plus | A18 | Metal — Full | 15–20 tok/s |
| iPhone 15 Pro / Max | A17 Pro | Metal — Full | 12–18 tok/s |
| iPhone 15 / Plus | A16 | Metal — Partial | 6–10 tok/s |
| iPhone 14 series | A15 | CPU fallback | 3–5 tok/s |
| iPhone 13 and older | A15 / A14 | CPU only | 2–3 tok/s |
旧款 iPhone 可通过 CPU 推理运行 E2B 模型,但速度较慢(每秒 2–4 个 token)。iPhone 15 Pro 及更新款搭载 A17 Pro 芯片,支持 Metal GPU 加速,速度达到实用实时水平。
性能基准测试
| Task | iPhone 15 Pro (A17) | iPhone 16 Pro (A18 Pro) |
|---|---|---|
| Text generation (tok/s) | 14 | 21 |
| First token latency | ~0.4s | ~0.25s |
| 512→512 token throughput | 11 tok/s | 17 tok/s |
| RAM usage (peak) | 2.8 GB | 2.6 GB |
| Battery drain (per hour) | ~18% | ~14% |
测试条件:Gemma 4 E2B Q4_K_M,512 token 提示词,使用 Metal GPU。纯 CPU 模式速度慢 3–5 倍。
最佳性能使用技巧
- 使用 Q4_K_M 量化——移动端最佳质量/速度平衡点
- 推理前关闭其他应用以释放内存
- 将提示词控制在 2K token 以内以获得最快响应
- 长时间使用时请连接充电器——推理会大量消耗 GPU 资源