모바일 가이드
Gemma 4 iPhone에서 실행하기
Google의 Gemma 4를 iPhone에서 직접 실행하세요 — 클라우드 불필요, 구독 불필요, 완전한 프라이버시. E2B 엣지 모델은 5GB 미만으로 iPhone 15 Pro 이상에서 실시간 추론을 제공합니다.
iPhone에서 Gemma 4를 실행하는 이유
- 완전한 프라이버시 — 데이터가 기기 밖으로 나가지 않음
- 완전 오프라인 작동, 인터넷 불필요
- API 비용 제로 — 다운로드 후 무료 실행
- A17 Pro / A18 칩에서 1초 미만 응답
어떤 모델을 사용할까
| Model | Download | Active RAM | Speed (A17 Pro) | Recommendation |
|---|---|---|---|---|
| Gemma 4 E2B Q4_K_M | ~2.4 GB | ~2.5 GB | 12–18 tok/s | Best for iPhone |
| Gemma 4 E2B BF16 | ~4.6 GB | ~4.8 GB | 6–10 tok/s | Max quality |
| Gemma 4 E4B Q4_K_M | ~4.2 GB | ~4.5 GB | 7–11 tok/s | Higher quality |
E2B 모델이 iPhone의 최우선 추천입니다. 다운로드 크기 약 4.6GB로 iPhone 저장공간에 여유롭게 들어가며, 4비트 양자화 후 활성 RAM이 약 2.5GB — iPhone 15/16 시리즈의 메모리 예산 내에 충분히 들어옵니다.
방법 1 — Google AI Edge SDK (Swift)
공식 방법. Google AI Edge는 Metal GPU 가속으로 Gemma 4를 실행하는 네이티브 Swift 패키지를 제공합니다.
- Xcode 프로젝트에 Google AI Edge Swift 패키지 추가
- TensorFlow Lite / LiteRT 형식의 E2B 모델 가중치 다운로드
- 세션을 초기화하고 generate() 호출
Package.swift
// Package.swift
dependencies: [
.package(
url: "https://github.com/google/generative-ai-swift",
from: "0.5.0"
)
]Swift Inference
import GoogleAIEdge
// Load E2B model (place .task file in app bundle)
let modelPath = Bundle.main.path(forResource: "gemma4-e2b-it-q4", ofType: "task")!
let session = try LlmInference(modelPath: modelPath)
// Generate response
let response = try await session.generateResponse(
inputText: "Explain quantum computing in simple terms."
)
print(response)방법 2 — GGUF via llama.cpp (LLM Farm / Offline Chat)
기성 iOS 앱을 선호하는 사용자를 위한 방법. App Store의 LLM Farm과 Offline Chat은 모두 llama.cpp를 기반으로 하며 Gemma GGUF 모델을 지원합니다. Hugging Face에서 Q4_K_M 양자화 GGUF를 다운로드하여 앱에서 가져오면 바로 채팅 시작. 코드 불필요.
LLM Farm
Free, open-source, supports custom GGUF import. Available on App Store.
Offline Chat
Simple UI, built-in model browser, supports Gemma GGUF natively.
방법 3 — Mac에서 Ollama 실행, iPhone에서 접근
이미 Mac에서 Ollama를 실행 중이신가요? 로컬 네트워크에 API를 노출하고 OpenAI 호환 앱(Enchanted, OllamaChat 등)으로 iPhone에서 연결하세요. Mac에서 OLLAMA_HOST=0.0.0.0을 설정한 후 앱을 http://Mac-IP:11434로 지정하면 됩니다.
# On your Mac — allow LAN access
export OLLAMA_HOST=0.0.0.0
ollama serve
# Pull Gemma 4 E2B if not already done
ollama pull gemma4:e2b
# iPhone app settings:
# Base URL: http://192.168.x.x:11434 (your Mac's local IP)
# Model: gemma4:e2biPhone 하드웨어 요구사항
| iPhone | Chip | GPU Acceleration | E2B Q4 Speed |
|---|---|---|---|
| iPhone 16 Pro / Max | A18 Pro | Metal — Full | 18–24 tok/s |
| iPhone 16 / Plus | A18 | Metal — Full | 15–20 tok/s |
| iPhone 15 Pro / Max | A17 Pro | Metal — Full | 12–18 tok/s |
| iPhone 15 / Plus | A16 | Metal — Partial | 6–10 tok/s |
| iPhone 14 series | A15 | CPU fallback | 3–5 tok/s |
| iPhone 13 and older | A15 / A14 | CPU only | 2–3 tok/s |
구형 iPhone도 CPU 추론으로 E2B 모델을 실행할 수 있지만 속도가 느립니다(초당 2–4 토큰). A17 Pro 칩이 탑재된 iPhone 15 Pro 이상은 Metal GPU 가속이 활성화되어 실용적인 실시간 속도를 제공합니다.
성능 벤치마크
| Task | iPhone 15 Pro (A17) | iPhone 16 Pro (A18 Pro) |
|---|---|---|
| Text generation (tok/s) | 14 | 21 |
| First token latency | ~0.4s | ~0.25s |
| 512→512 token throughput | 11 tok/s | 17 tok/s |
| RAM usage (peak) | 2.8 GB | 2.6 GB |
| Battery drain (per hour) | ~18% | ~14% |
Gemma 4 E2B Q4_K_M, 512 토큰 프롬프트, Metal GPU 사용 시 토큰/초. CPU 전용 폴백은 3–5배 느립니다.
최고 성능을 위한 팁
- Q4_K_M 양자화 사용 — 모바일에서 최고의 품질/속도 균형
- 추론 전에 다른 앱을 닫아 RAM 확보
- 가장 빠른 응답을 위해 프롬프트를 2K 토큰 이내로 유지
- 장시간 사용 시 충전기 연결 — 추론은 GPU를 집중적으로 사용