G4

移动端指南

Gemma 4 运行在 iPhone 上

直接在 iPhone 上运行 Google 的 Gemma 4——无需云端,无需订阅,完全保护隐私。E2B 边缘模型体积不到 5 GB,在 iPhone 15 Pro 及更新机型上可实现实时推理。

iOS Swift Metal GPU On-Device Offline

为什么在 iPhone 上运行 Gemma 4?

  • 完全隐私——数据永不离开设备
  • 完全离线工作,无需联网
  • 零 API 费用——下载后免费运行
  • 在 A17 Pro / A18 芯片上响应时间低于一秒

推荐使用哪个模型

ModelDownloadActive RAMSpeed (A17 Pro)Recommendation
Gemma 4 E2B Q4_K_M~2.4 GB~2.5 GB12–18 tok/sBest for iPhone
Gemma 4 E2B BF16~4.6 GB~4.8 GB6–10 tok/sMax quality
Gemma 4 E4B Q4_K_M~4.2 GB~4.5 GB7–11 tok/sHigher quality

E2B 模型是 iPhone 的首选推荐。下载大小约 4.6 GB,轻松适配 iPhone 存储空间,4-bit 量化后活跃内存约 2.5 GB——完全在 iPhone 15/16 系列的内存预算之内。

方法一 — Google AI Edge SDK(Swift)

官方推荐路径。Google AI Edge 提供原生 Swift 包,通过 Metal GPU 加速运行 Gemma 4。

  • 在 Xcode 项目中添加 Google AI Edge Swift 包
  • 下载 TensorFlow Lite / LiteRT 格式的 E2B 模型权重
  • 初始化会话并调用 generate()

Package.swift

// Package.swift
dependencies: [
    .package(
        url: "https://github.com/google/generative-ai-swift",
        from: "0.5.0"
    )
]

Swift Inference

import GoogleAIEdge

// Load E2B model (place .task file in app bundle)
let modelPath = Bundle.main.path(forResource: "gemma4-e2b-it-q4", ofType: "task")!
let session = try LlmInference(modelPath: modelPath)

// Generate response
let response = try await session.generateResponse(
    inputText: "Explain quantum computing in simple terms."
)
print(response)

方法二 — GGUF via llama.cpp(LLM Farm / Offline Chat)

适合偏好现成 iOS 应用的用户。App Store 上的 LLM Farm 和 Offline Chat 底层均使用 llama.cpp,支持 Gemma GGUF 模型。从 Hugging Face 下载 Q4_K_M 量化的 GGUF 文件,在 App 中导入即可开始聊天,无需编写代码。

LLM Farm

Free, open-source, supports custom GGUF import. Available on App Store.

Offline Chat

Simple UI, built-in model browser, supports Gemma GGUF natively.

方法三 — Mac 上运行 Ollama,iPhone 远程访问

已在 Mac 上运行 Ollama?在本地网络暴露 API,通过任意支持 OpenAI 兼容接口的 App(如 Enchanted、OllamaChat)从 iPhone 连接。在 Mac 上设置 OLLAMA_HOST=0.0.0.0,然后将 App 指向 http://你的Mac-IP:11434。

# On your Mac — allow LAN access
export OLLAMA_HOST=0.0.0.0
ollama serve

# Pull Gemma 4 E2B if not already done
ollama pull gemma4:e2b

# iPhone app settings:
# Base URL: http://192.168.x.x:11434  (your Mac's local IP)
# Model: gemma4:e2b

iPhone 硬件要求

iPhoneChipGPU AccelerationE2B Q4 Speed
iPhone 16 Pro / MaxA18 ProMetal — Full18–24 tok/s
iPhone 16 / PlusA18Metal — Full15–20 tok/s
iPhone 15 Pro / MaxA17 ProMetal — Full12–18 tok/s
iPhone 15 / PlusA16Metal — Partial6–10 tok/s
iPhone 14 seriesA15CPU fallback3–5 tok/s
iPhone 13 and olderA15 / A14CPU only2–3 tok/s

旧款 iPhone 可通过 CPU 推理运行 E2B 模型,但速度较慢(每秒 2–4 个 token)。iPhone 15 Pro 及更新款搭载 A17 Pro 芯片,支持 Metal GPU 加速,速度达到实用实时水平。

性能基准测试

TaskiPhone 15 Pro (A17)iPhone 16 Pro (A18 Pro)
Text generation (tok/s)1421
First token latency~0.4s~0.25s
512→512 token throughput11 tok/s17 tok/s
RAM usage (peak)2.8 GB2.6 GB
Battery drain (per hour)~18%~14%

测试条件:Gemma 4 E2B Q4_K_M,512 token 提示词,使用 Metal GPU。纯 CPU 模式速度慢 3–5 倍。

最佳性能使用技巧

  • 使用 Q4_K_M 量化——移动端最佳质量/速度平衡点
  • 推理前关闭其他应用以释放内存
  • 将提示词控制在 2K token 以内以获得最快响应
  • 长时间使用时请连接充电器——推理会大量消耗 GPU 资源

相关资源