모바일 가이드
Gemma 4 Android에서 실행하기
Google의 Gemma 4를 Android 스마트폰에서 직접 실행하세요 — 완전 오프라인, 클라우드 비용 제로, 완전한 데이터 프라이버시. E2B 엣지 모델은 Snapdragon 8 Gen 2 이상을 탑재한 플래그십 Android에서 실시간 AI를 제공합니다.
Android에서 Gemma 4를 실행하는 이유
- 완전한 프라이버시 — 프롬프트와 응답이 기기 밖으로 나가지 않음
- 오프라인 작동 — Wi-Fi나 모바일 데이터 불필요
- 다운로드 후 무료 — API 요금 없음, 구독 없음
- Snapdragon 8 Gen 3 / Dimensity 9300에서 즉각 응답
어떤 모델을 사용할까
| Model | Storage | Active RAM | Speed (SD 8 Gen 3) | Recommendation |
|---|---|---|---|---|
| Gemma 4 E2B Q4_K_M | ~2.4 GB | ~2.5 GB | 14–20 tok/s | Best for Android |
| Gemma 4 E2B Q8 | ~4.4 GB | ~4.6 GB | 9–13 tok/s | Higher quality |
| Gemma 4 E4B Q4_K_M | ~4.2 GB | ~4.5 GB | 8–12 tok/s | Larger model |
E2B Q4_K_M이 Android의 최우선 추천입니다. 저장공간 약 2.4GB, 추론 시 RAM 약 2.5GB로, 2023년 이후의 플래그십 칩셋에서 실용적인 속도로 동작합니다.
방법 1 — Google AI Edge / MediaPipe (Kotlin)
공식 Google 방법. AI Edge SDK는 Android Studio와 직접 통합되며 GPU 델리게이트로 하드웨어 가속 추론을 제공합니다. 자체 앱 개발에 이상적.
build.gradle
// build.gradle (app)
dependencies {
implementation("com.google.ai.edge.litert:litert:1.0.1")
implementation("com.google.ai.edge.litert:litert-gpu:1.0.1")
}Kotlin Inference
import com.google.ai.edge.litert.LiteRtSession
// Initialize with E2B model asset
val session = LiteRtSession.createFromAsset(
context,
"gemma4-e2b-it-q4.task",
LiteRtSession.Options.builder()
.setPreferredBackend(LiteRtSession.Backend.GPU)
.build()
)
// Generate response
val result = session.generateResponse("What is Gemma 4?")
println(result)방법 2 — MLC-LLM Android 앱
MLC-LLM은 Vulkan GPU 가속으로 Gemma 4 GGUF 모델을 실행하는 사전 빌드된 Android APK를 제공합니다. MLC-LLM GitHub Releases에서 APK를 다운로드하여 설치한 후 앱 내에서 Gemma 4 E2B Q4 모델을 불러오면 바로 사용 가능. 코드 불필요 — Android 10 이상의 현대적인 GPU가 있는 모든 기기에서 작동합니다.
Step 1
Download MLC-LLM APK from GitHub Releases page
Step 2
Install APK (enable "Unknown sources" in settings)
Step 3
Open app → Add Model → select Gemma 4 E2B Q4
방법 3 — Termux + llama.cpp (고급 사용자)
완전한 제어를 원하는 개발자를 위한 방법. F-Droid에서 Termux를 설치하고, OpenCL 또는 Vulkan 지원으로 llama.cpp를 컴파일하고, GGUF 모델을 다운로드하여 터미널에서 추론을 실행합니다. 설정이 복잡하지만 컨텍스트 길이, 온도, 배치 크기 등 모든 llama.cpp 플래그에 직접 접근할 수 있습니다.
# Install Termux from F-Droid (not Play Store)
# Then inside Termux:
pkg update && pkg install clang cmake git
# Clone and build llama.cpp with Vulkan
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release -j4
# Download Gemma 4 E2B Q4_K_M GGUF
# (copy to phone storage or wget from Hugging Face)
# Run inference
./build/bin/llama-cli \
-m /sdcard/gemma4-e2b-q4_k_m.gguf \
-p "Explain machine learning simply" \
-n 200 --gpu-layers 99Android 하드웨어 요구사항
| Chipset | GPU API | E2B Q4 Speed | Devices |
|---|---|---|---|
| Snapdragon 8 Elite | Vulkan — Full | 18–25 tok/s | Galaxy S25, Xiaomi 15 |
| Snapdragon 8 Gen 3 | Vulkan — Full | 14–20 tok/s | Galaxy S24, OnePlus 12 |
| Snapdragon 8 Gen 2 | Vulkan — Full | 10–15 tok/s | Galaxy S23, Pixel 8 Pro |
| Dimensity 9300 / 9400 | Vulkan — Full | 12–18 tok/s | Xiaomi 14, vivo X100 |
| Snapdragon 7s Gen 2 | CPU fallback | 3–5 tok/s | Mid-range devices |
| Older chipsets | CPU only | 1–3 tok/s | Not recommended |
중급 칩셋(Snapdragon 7s Gen 2 이하)도 CPU로 E2B Q4를 실행할 수 있지만 초당 2–4 토큰으로 느립니다. Vulkan/OpenCL GPU 컴퓨팅이 있는 플래그십 칩은 초당 10–20+ 토큰을 제공합니다.
성능 벤치마크
| Task | Pixel 8 Pro (SD 8 Gen 2) | Galaxy S24 (SD 8 Gen 3) |
|---|---|---|
| Text generation (tok/s) | 13 | 18 |
| First token latency | ~0.5s | ~0.3s |
| 512→512 token throughput | 10 tok/s | 15 tok/s |
| RAM usage (peak) | 2.9 GB | 2.7 GB |
| Battery drain (per hour) | ~20% | ~16% |
Gemma 4 E2B Q4_K_M, 512 토큰 프롬프트 기준 토큰/초. GPU 경로는 MLC-LLM 또는 AI Edge SDK를 통한 Vulkan 컴퓨팅 사용.
최고 성능을 위한 팁
- GPU 가속 활성화 — Vulkan 델리게이트는 CPU보다 4–6배 빠름
- Q4_K_M 양자화 사용 — 모바일에서 최고의 품질/속도 균형
- 긴 세션 전에 Android 성능 모드 설정 (설정 → 배터리 → 성능 모드)
- 프롬프트를 2K 토큰 이내로 유지 — 긴 컨텍스트는 첫 토큰 지연을 크게 증가시킴