G4

모바일 가이드

Gemma 4 Android에서 실행하기

Google의 Gemma 4를 Android 스마트폰에서 직접 실행하세요 — 완전 오프라인, 클라우드 비용 제로, 완전한 데이터 프라이버시. E2B 엣지 모델은 Snapdragon 8 Gen 2 이상을 탑재한 플래그십 Android에서 실시간 AI를 제공합니다.

Android Kotlin Vulkan GPU On-Device Offline

Android에서 Gemma 4를 실행하는 이유

  • 완전한 프라이버시 — 프롬프트와 응답이 기기 밖으로 나가지 않음
  • 오프라인 작동 — Wi-Fi나 모바일 데이터 불필요
  • 다운로드 후 무료 — API 요금 없음, 구독 없음
  • Snapdragon 8 Gen 3 / Dimensity 9300에서 즉각 응답

어떤 모델을 사용할까

ModelStorageActive RAMSpeed (SD 8 Gen 3)Recommendation
Gemma 4 E2B Q4_K_M~2.4 GB~2.5 GB14–20 tok/sBest for Android
Gemma 4 E2B Q8~4.4 GB~4.6 GB9–13 tok/sHigher quality
Gemma 4 E4B Q4_K_M~4.2 GB~4.5 GB8–12 tok/sLarger model

E2B Q4_K_M이 Android의 최우선 추천입니다. 저장공간 약 2.4GB, 추론 시 RAM 약 2.5GB로, 2023년 이후의 플래그십 칩셋에서 실용적인 속도로 동작합니다.

방법 1 — Google AI Edge / MediaPipe (Kotlin)

공식 Google 방법. AI Edge SDK는 Android Studio와 직접 통합되며 GPU 델리게이트로 하드웨어 가속 추론을 제공합니다. 자체 앱 개발에 이상적.

build.gradle

// build.gradle (app)
dependencies {
    implementation("com.google.ai.edge.litert:litert:1.0.1")
    implementation("com.google.ai.edge.litert:litert-gpu:1.0.1")
}

Kotlin Inference

import com.google.ai.edge.litert.LiteRtSession

// Initialize with E2B model asset
val session = LiteRtSession.createFromAsset(
    context,
    "gemma4-e2b-it-q4.task",
    LiteRtSession.Options.builder()
        .setPreferredBackend(LiteRtSession.Backend.GPU)
        .build()
)

// Generate response
val result = session.generateResponse("What is Gemma 4?")
println(result)

방법 2 — MLC-LLM Android 앱

MLC-LLM은 Vulkan GPU 가속으로 Gemma 4 GGUF 모델을 실행하는 사전 빌드된 Android APK를 제공합니다. MLC-LLM GitHub Releases에서 APK를 다운로드하여 설치한 후 앱 내에서 Gemma 4 E2B Q4 모델을 불러오면 바로 사용 가능. 코드 불필요 — Android 10 이상의 현대적인 GPU가 있는 모든 기기에서 작동합니다.

Step 1

Download MLC-LLM APK from GitHub Releases page

Step 2

Install APK (enable "Unknown sources" in settings)

Step 3

Open app → Add Model → select Gemma 4 E2B Q4

방법 3 — Termux + llama.cpp (고급 사용자)

완전한 제어를 원하는 개발자를 위한 방법. F-Droid에서 Termux를 설치하고, OpenCL 또는 Vulkan 지원으로 llama.cpp를 컴파일하고, GGUF 모델을 다운로드하여 터미널에서 추론을 실행합니다. 설정이 복잡하지만 컨텍스트 길이, 온도, 배치 크기 등 모든 llama.cpp 플래그에 직접 접근할 수 있습니다.

# Install Termux from F-Droid (not Play Store)
# Then inside Termux:
pkg update && pkg install clang cmake git

# Clone and build llama.cpp with Vulkan
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release -j4

# Download Gemma 4 E2B Q4_K_M GGUF
# (copy to phone storage or wget from Hugging Face)

# Run inference
./build/bin/llama-cli \
  -m /sdcard/gemma4-e2b-q4_k_m.gguf \
  -p "Explain machine learning simply" \
  -n 200 --gpu-layers 99

Android 하드웨어 요구사항

ChipsetGPU APIE2B Q4 SpeedDevices
Snapdragon 8 EliteVulkan — Full18–25 tok/sGalaxy S25, Xiaomi 15
Snapdragon 8 Gen 3Vulkan — Full14–20 tok/sGalaxy S24, OnePlus 12
Snapdragon 8 Gen 2Vulkan — Full10–15 tok/sGalaxy S23, Pixel 8 Pro
Dimensity 9300 / 9400Vulkan — Full12–18 tok/sXiaomi 14, vivo X100
Snapdragon 7s Gen 2CPU fallback3–5 tok/sMid-range devices
Older chipsetsCPU only1–3 tok/sNot recommended

중급 칩셋(Snapdragon 7s Gen 2 이하)도 CPU로 E2B Q4를 실행할 수 있지만 초당 2–4 토큰으로 느립니다. Vulkan/OpenCL GPU 컴퓨팅이 있는 플래그십 칩은 초당 10–20+ 토큰을 제공합니다.

성능 벤치마크

TaskPixel 8 Pro (SD 8 Gen 2)Galaxy S24 (SD 8 Gen 3)
Text generation (tok/s)1318
First token latency~0.5s~0.3s
512→512 token throughput10 tok/s15 tok/s
RAM usage (peak)2.9 GB2.7 GB
Battery drain (per hour)~20%~16%

Gemma 4 E2B Q4_K_M, 512 토큰 프롬프트 기준 토큰/초. GPU 경로는 MLC-LLM 또는 AI Edge SDK를 통한 Vulkan 컴퓨팅 사용.

최고 성능을 위한 팁

  • GPU 가속 활성화 — Vulkan 델리게이트는 CPU보다 4–6배 빠름
  • Q4_K_M 양자화 사용 — 모바일에서 최고의 품질/속도 균형
  • 긴 세션 전에 Android 성능 모드 설정 (설정 → 배터리 → 성능 모드)
  • 프롬프트를 2K 토큰 이내로 유지 — 긴 컨텍스트는 첫 토큰 지연을 크게 증가시킴

관련