移动端指南

Gemma 4 运行在 Android 上

直接在 Android 手机上运行 Google 的 Gemma 4——完全离线，零云端费用，数据完全私密。E2B 边缘模型在任何搭载骁龙 8 Gen 2 或更新处理器的旗舰机上均可实现实时 AI 推理。

Android Kotlin Vulkan GPU On-Device Offline

为什么在 Android 上运行 Gemma 4？

完全隐私——提示词和响应永不离开设备
离线工作——无需 Wi-Fi 或移动数据
下载后完全免费——无 API 费用，无订阅
骁龙 8 Gen 3 / 天玑 9300 上即时响应

方法一 — Google AI Edge / MediaPipe（Kotlin）

官方 Google 路径。AI Edge SDK 与 Android Studio 深度集成，使用 GPU delegate 实现硬件加速推理，非常适合开发自定义 App。

build.gradle

// build.gradle (app)
dependencies {
    implementation("com.google.ai.edge.litert:litert:1.0.1")
    implementation("com.google.ai.edge.litert:litert-gpu:1.0.1")
}

Kotlin Inference

import com.google.ai.edge.litert.LiteRtSession

// Initialize with E2B model asset
val session = LiteRtSession.createFromAsset(
    context,
    "gemma4-e2b-it-q4.task",
    LiteRtSession.Options.builder()
        .setPreferredBackend(LiteRtSession.Backend.GPU)
        .build()
)

// Generate response
val result = session.generateResponse("What is Gemma 4?")
println(result)

方法二 — MLC-LLM Android App

MLC-LLM 提供预构建的 Android APK，通过 Vulkan GPU 加速运行 Gemma 4 GGUF 模型。从 MLC-LLM GitHub Releases 下载 APK 安装后，在 App 内加载 Gemma 4 E2B Q4 模型即可开始使用。无需编写代码，兼容所有 Android 10 以上且具备现代 GPU 的设备。

Step 1

Download MLC-LLM APK from GitHub Releases page

Step 2

Install APK (enable "Unknown sources" in settings)

Step 3

Open app → Add Model → select Gemma 4 E2B Q4

方法三 — Termux + llama.cpp（高级用户）

适合想要完全掌控的开发者。从 F-Droid 安装 Termux，编译支持 OpenCL 或 Vulkan 的 llama.cpp，下载 GGUF 模型，在终端运行推理。设置过程较复杂，但可以直接访问 llama.cpp 的所有参数，包括上下文长度、温度和批处理大小。

# Install Termux from F-Droid (not Play Store)
# Then inside Termux:
pkg update && pkg install clang cmake git

# Clone and build llama.cpp with Vulkan
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release -j4

# Download Gemma 4 E2B Q4_K_M GGUF
# (copy to phone storage or wget from Hugging Face)

# Run inference
./build/bin/llama-cli \
  -m /sdcard/gemma4-e2b-q4_k_m.gguf \
  -p "Explain machine learning simply" \
  -n 200 --gpu-layers 99

Android 硬件要求

Chipset	GPU API	E2B Q4 Speed	Devices
Snapdragon 8 Elite	Vulkan — Full	18–25 tok/s	Galaxy S25, Xiaomi 15
Snapdragon 8 Gen 3	Vulkan — Full	14–20 tok/s	Galaxy S24, OnePlus 12
Snapdragon 8 Gen 2	Vulkan — Full	10–15 tok/s	Galaxy S23, Pixel 8 Pro
Dimensity 9300 / 9400	Vulkan — Full	12–18 tok/s	Xiaomi 14, vivo X100
Snapdragon 7s Gen 2	CPU fallback	3–5 tok/s	Mid-range devices
Older chipsets	CPU only	1–3 tok/s	Not recommended

中端芯片（骁龙 7s Gen 2 及以下）可通过 CPU 运行 E2B Q4，但速度预计为每秒 2–4 token。具备 Vulkan/OpenCL GPU 计算能力的旗舰芯片可达每秒 10–20+ token。

性能基准测试

Task	Pixel 8 Pro (SD 8 Gen 2)	Galaxy S24 (SD 8 Gen 3)
Text generation (tok/s)	13	18
First token latency	~0.5s	~0.3s
512→512 token throughput	10 tok/s	15 tok/s
RAM usage (peak)	2.9 GB	2.7 GB
Battery drain (per hour)	~20%	~16%

测试条件：Gemma 4 E2B Q4_K_M，512 token 提示词。GPU 路径通过 MLC-LLM 或 AI Edge SDK 使用 Vulkan 计算。

最佳性能使用技巧

启用 GPU 加速——Vulkan delegate 比 CPU 快 4–6 倍
使用 Q4_K_M 量化——移动端最佳质量/速度平衡
长时间使用前设置 Android 性能模式（设置 → 电池 → 性能模式）
将提示词控制在 2K token 以内——更长的上下文会显著增加首 token 延迟

Model	Storage	Active RAM	Speed (SD 8 Gen 3)	Recommendation
Gemma 4 E2B Q4_K_M	~2.4 GB	~2.5 GB	14–20 tok/s	Best for Android
Gemma 4 E2B Q8	~4.4 GB	~4.6 GB	9–13 tok/s	Higher quality
Gemma 4 E4B Q4_K_M	~4.2 GB	~4.5 GB	8–12 tok/s	Larger model