G4

移动端指南

Gemma 4 运行在 Android 上

直接在 Android 手机上运行 Google 的 Gemma 4——完全离线,零云端费用,数据完全私密。E2B 边缘模型在任何搭载骁龙 8 Gen 2 或更新处理器的旗舰机上均可实现实时 AI 推理。

Android Kotlin Vulkan GPU On-Device Offline

为什么在 Android 上运行 Gemma 4?

  • 完全隐私——提示词和响应永不离开设备
  • 离线工作——无需 Wi-Fi 或移动数据
  • 下载后完全免费——无 API 费用,无订阅
  • 骁龙 8 Gen 3 / 天玑 9300 上即时响应

推荐使用哪个模型

ModelStorageActive RAMSpeed (SD 8 Gen 3)Recommendation
Gemma 4 E2B Q4_K_M~2.4 GB~2.5 GB14–20 tok/sBest for Android
Gemma 4 E2B Q8~4.4 GB~4.6 GB9–13 tok/sHigher quality
Gemma 4 E4B Q4_K_M~4.2 GB~4.5 GB8–12 tok/sLarger model

E2B Q4_K_M 是 Android 的首选推荐。存储占用约 2.4 GB,推理时内存约 2.5 GB,在 2023 年以后的旗舰芯片上运行速度流畅实用。

方法一 — Google AI Edge / MediaPipe(Kotlin)

官方 Google 路径。AI Edge SDK 与 Android Studio 深度集成,使用 GPU delegate 实现硬件加速推理,非常适合开发自定义 App。

build.gradle

// build.gradle (app)
dependencies {
    implementation("com.google.ai.edge.litert:litert:1.0.1")
    implementation("com.google.ai.edge.litert:litert-gpu:1.0.1")
}

Kotlin Inference

import com.google.ai.edge.litert.LiteRtSession

// Initialize with E2B model asset
val session = LiteRtSession.createFromAsset(
    context,
    "gemma4-e2b-it-q4.task",
    LiteRtSession.Options.builder()
        .setPreferredBackend(LiteRtSession.Backend.GPU)
        .build()
)

// Generate response
val result = session.generateResponse("What is Gemma 4?")
println(result)

方法二 — MLC-LLM Android App

MLC-LLM 提供预构建的 Android APK,通过 Vulkan GPU 加速运行 Gemma 4 GGUF 模型。从 MLC-LLM GitHub Releases 下载 APK 安装后,在 App 内加载 Gemma 4 E2B Q4 模型即可开始使用。无需编写代码,兼容所有 Android 10 以上且具备现代 GPU 的设备。

Step 1

Download MLC-LLM APK from GitHub Releases page

Step 2

Install APK (enable "Unknown sources" in settings)

Step 3

Open app → Add Model → select Gemma 4 E2B Q4

方法三 — Termux + llama.cpp(高级用户)

适合想要完全掌控的开发者。从 F-Droid 安装 Termux,编译支持 OpenCL 或 Vulkan 的 llama.cpp,下载 GGUF 模型,在终端运行推理。设置过程较复杂,但可以直接访问 llama.cpp 的所有参数,包括上下文长度、温度和批处理大小。

# Install Termux from F-Droid (not Play Store)
# Then inside Termux:
pkg update && pkg install clang cmake git

# Clone and build llama.cpp with Vulkan
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release -j4

# Download Gemma 4 E2B Q4_K_M GGUF
# (copy to phone storage or wget from Hugging Face)

# Run inference
./build/bin/llama-cli \
  -m /sdcard/gemma4-e2b-q4_k_m.gguf \
  -p "Explain machine learning simply" \
  -n 200 --gpu-layers 99

Android 硬件要求

ChipsetGPU APIE2B Q4 SpeedDevices
Snapdragon 8 EliteVulkan — Full18–25 tok/sGalaxy S25, Xiaomi 15
Snapdragon 8 Gen 3Vulkan — Full14–20 tok/sGalaxy S24, OnePlus 12
Snapdragon 8 Gen 2Vulkan — Full10–15 tok/sGalaxy S23, Pixel 8 Pro
Dimensity 9300 / 9400Vulkan — Full12–18 tok/sXiaomi 14, vivo X100
Snapdragon 7s Gen 2CPU fallback3–5 tok/sMid-range devices
Older chipsetsCPU only1–3 tok/sNot recommended

中端芯片(骁龙 7s Gen 2 及以下)可通过 CPU 运行 E2B Q4,但速度预计为每秒 2–4 token。具备 Vulkan/OpenCL GPU 计算能力的旗舰芯片可达每秒 10–20+ token。

性能基准测试

TaskPixel 8 Pro (SD 8 Gen 2)Galaxy S24 (SD 8 Gen 3)
Text generation (tok/s)1318
First token latency~0.5s~0.3s
512→512 token throughput10 tok/s15 tok/s
RAM usage (peak)2.9 GB2.7 GB
Battery drain (per hour)~20%~16%

测试条件:Gemma 4 E2B Q4_K_M,512 token 提示词。GPU 路径通过 MLC-LLM 或 AI Edge SDK 使用 Vulkan 计算。

最佳性能使用技巧

  • 启用 GPU 加速——Vulkan delegate 比 CPU 快 4–6 倍
  • 使用 Q4_K_M 量化——移动端最佳质量/速度平衡
  • 长时间使用前设置 Android 性能模式(设置 → 电池 → 性能模式)
  • 将提示词控制在 2K token 以内——更长的上下文会显著增加首 token 延迟

相关资源