移动端指南
Gemma 4 运行在 Android 上
直接在 Android 手机上运行 Google 的 Gemma 4——完全离线,零云端费用,数据完全私密。E2B 边缘模型在任何搭载骁龙 8 Gen 2 或更新处理器的旗舰机上均可实现实时 AI 推理。
为什么在 Android 上运行 Gemma 4?
- 完全隐私——提示词和响应永不离开设备
- 离线工作——无需 Wi-Fi 或移动数据
- 下载后完全免费——无 API 费用,无订阅
- 骁龙 8 Gen 3 / 天玑 9300 上即时响应
推荐使用哪个模型
| Model | Storage | Active RAM | Speed (SD 8 Gen 3) | Recommendation |
|---|---|---|---|---|
| Gemma 4 E2B Q4_K_M | ~2.4 GB | ~2.5 GB | 14–20 tok/s | Best for Android |
| Gemma 4 E2B Q8 | ~4.4 GB | ~4.6 GB | 9–13 tok/s | Higher quality |
| Gemma 4 E4B Q4_K_M | ~4.2 GB | ~4.5 GB | 8–12 tok/s | Larger model |
E2B Q4_K_M 是 Android 的首选推荐。存储占用约 2.4 GB,推理时内存约 2.5 GB,在 2023 年以后的旗舰芯片上运行速度流畅实用。
方法一 — Google AI Edge / MediaPipe(Kotlin)
官方 Google 路径。AI Edge SDK 与 Android Studio 深度集成,使用 GPU delegate 实现硬件加速推理,非常适合开发自定义 App。
build.gradle
// build.gradle (app)
dependencies {
implementation("com.google.ai.edge.litert:litert:1.0.1")
implementation("com.google.ai.edge.litert:litert-gpu:1.0.1")
}Kotlin Inference
import com.google.ai.edge.litert.LiteRtSession
// Initialize with E2B model asset
val session = LiteRtSession.createFromAsset(
context,
"gemma4-e2b-it-q4.task",
LiteRtSession.Options.builder()
.setPreferredBackend(LiteRtSession.Backend.GPU)
.build()
)
// Generate response
val result = session.generateResponse("What is Gemma 4?")
println(result)方法二 — MLC-LLM Android App
MLC-LLM 提供预构建的 Android APK,通过 Vulkan GPU 加速运行 Gemma 4 GGUF 模型。从 MLC-LLM GitHub Releases 下载 APK 安装后,在 App 内加载 Gemma 4 E2B Q4 模型即可开始使用。无需编写代码,兼容所有 Android 10 以上且具备现代 GPU 的设备。
Step 1
Download MLC-LLM APK from GitHub Releases page
Step 2
Install APK (enable "Unknown sources" in settings)
Step 3
Open app → Add Model → select Gemma 4 E2B Q4
方法三 — Termux + llama.cpp(高级用户)
适合想要完全掌控的开发者。从 F-Droid 安装 Termux,编译支持 OpenCL 或 Vulkan 的 llama.cpp,下载 GGUF 模型,在终端运行推理。设置过程较复杂,但可以直接访问 llama.cpp 的所有参数,包括上下文长度、温度和批处理大小。
# Install Termux from F-Droid (not Play Store)
# Then inside Termux:
pkg update && pkg install clang cmake git
# Clone and build llama.cpp with Vulkan
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release -j4
# Download Gemma 4 E2B Q4_K_M GGUF
# (copy to phone storage or wget from Hugging Face)
# Run inference
./build/bin/llama-cli \
-m /sdcard/gemma4-e2b-q4_k_m.gguf \
-p "Explain machine learning simply" \
-n 200 --gpu-layers 99Android 硬件要求
| Chipset | GPU API | E2B Q4 Speed | Devices |
|---|---|---|---|
| Snapdragon 8 Elite | Vulkan — Full | 18–25 tok/s | Galaxy S25, Xiaomi 15 |
| Snapdragon 8 Gen 3 | Vulkan — Full | 14–20 tok/s | Galaxy S24, OnePlus 12 |
| Snapdragon 8 Gen 2 | Vulkan — Full | 10–15 tok/s | Galaxy S23, Pixel 8 Pro |
| Dimensity 9300 / 9400 | Vulkan — Full | 12–18 tok/s | Xiaomi 14, vivo X100 |
| Snapdragon 7s Gen 2 | CPU fallback | 3–5 tok/s | Mid-range devices |
| Older chipsets | CPU only | 1–3 tok/s | Not recommended |
中端芯片(骁龙 7s Gen 2 及以下)可通过 CPU 运行 E2B Q4,但速度预计为每秒 2–4 token。具备 Vulkan/OpenCL GPU 计算能力的旗舰芯片可达每秒 10–20+ token。
性能基准测试
| Task | Pixel 8 Pro (SD 8 Gen 2) | Galaxy S24 (SD 8 Gen 3) |
|---|---|---|
| Text generation (tok/s) | 13 | 18 |
| First token latency | ~0.5s | ~0.3s |
| 512→512 token throughput | 10 tok/s | 15 tok/s |
| RAM usage (peak) | 2.9 GB | 2.7 GB |
| Battery drain (per hour) | ~20% | ~16% |
测试条件:Gemma 4 E2B Q4_K_M,512 token 提示词。GPU 路径通过 MLC-LLM 或 AI Edge SDK 使用 Vulkan 计算。
最佳性能使用技巧
- 启用 GPU 加速——Vulkan delegate 比 CPU 快 4–6 倍
- 使用 Q4_K_M 量化——移动端最佳质量/速度平衡
- 长时间使用前设置 Android 性能模式(设置 → 电池 → 性能模式)
- 将提示词控制在 2K token 以内——更长的上下文会显著增加首 token 延迟