모바일 가이드

Gemma 4 iPhone에서 실행하기

Google의 Gemma 4를 iPhone에서 직접 실행하세요 — 클라우드 불필요, 구독 불필요, 완전한 프라이버시. E2B 엣지 모델은 5GB 미만으로 iPhone 15 Pro 이상에서 실시간 추론을 제공합니다.

iOS Swift Metal GPU On-Device Offline

iPhone에서 Gemma 4를 실행하는 이유

완전한 프라이버시 — 데이터가 기기 밖으로 나가지 않음
완전 오프라인 작동, 인터넷 불필요
API 비용 제로 — 다운로드 후 무료 실행
A17 Pro / A18 칩에서 1초 미만 응답

어떤 모델을 사용할까

Model	Download	Active RAM	Speed (A17 Pro)	Recommendation
Gemma 4 E2B Q4_K_M	~2.4 GB	~2.5 GB	12–18 tok/s	Best for iPhone
Gemma 4 E2B BF16	~4.6 GB	~4.8 GB	6–10 tok/s	Max quality
Gemma 4 E4B Q4_K_M	~4.2 GB	~4.5 GB	7–11 tok/s	Higher quality

E2B 모델이 iPhone의 최우선 추천입니다. 다운로드 크기 약 4.6GB로 iPhone 저장공간에 여유롭게 들어가며, 4비트 양자화 후 활성 RAM이 약 2.5GB — iPhone 15/16 시리즈의 메모리 예산 내에 충분히 들어옵니다.

방법 1 — Google AI Edge SDK (Swift)

공식 방법. Google AI Edge는 Metal GPU 가속으로 Gemma 4를 실행하는 네이티브 Swift 패키지를 제공합니다.

Xcode 프로젝트에 Google AI Edge Swift 패키지 추가
TensorFlow Lite / LiteRT 형식의 E2B 모델 가중치 다운로드
세션을 초기화하고 generate() 호출

Package.swift

// Package.swift
dependencies: [
    .package(
        url: "https://github.com/google/generative-ai-swift",
        from: "0.5.0"
    )
]

Swift Inference

import GoogleAIEdge

// Load E2B model (place .task file in app bundle)
let modelPath = Bundle.main.path(forResource: "gemma4-e2b-it-q4", ofType: "task")!
let session = try LlmInference(modelPath: modelPath)

// Generate response
let response = try await session.generateResponse(
    inputText: "Explain quantum computing in simple terms."
)
print(response)

방법 2 — GGUF via llama.cpp (LLM Farm / Offline Chat)

기성 iOS 앱을 선호하는 사용자를 위한 방법. App Store의 LLM Farm과 Offline Chat은 모두 llama.cpp를 기반으로 하며 Gemma GGUF 모델을 지원합니다. Hugging Face에서 Q4_K_M 양자화 GGUF를 다운로드하여 앱에서 가져오면 바로 채팅 시작. 코드 불필요.

LLM Farm

Free, open-source, supports custom GGUF import. Available on App Store.

Offline Chat

Simple UI, built-in model browser, supports Gemma GGUF natively.

방법 3 — Mac에서 Ollama 실행, iPhone에서 접근

이미 Mac에서 Ollama를 실행 중이신가요? 로컬 네트워크에 API를 노출하고 OpenAI 호환 앱(Enchanted, OllamaChat 등)으로 iPhone에서 연결하세요. Mac에서 OLLAMA_HOST=0.0.0.0을 설정한 후 앱을 http://Mac-IP:11434로 지정하면 됩니다.

# On your Mac — allow LAN access
export OLLAMA_HOST=0.0.0.0
ollama serve

# Pull Gemma 4 E2B if not already done
ollama pull gemma4:e2b

# iPhone app settings:
# Base URL: http://192.168.x.x:11434  (your Mac's local IP)
# Model: gemma4:e2b

iPhone 하드웨어 요구사항

iPhone	Chip	GPU Acceleration	E2B Q4 Speed
iPhone 16 Pro / Max	A18 Pro	Metal — Full	18–24 tok/s
iPhone 16 / Plus	A18	Metal — Full	15–20 tok/s
iPhone 15 Pro / Max	A17 Pro	Metal — Full	12–18 tok/s
iPhone 15 / Plus	A16	Metal — Partial	6–10 tok/s
iPhone 14 series	A15	CPU fallback	3–5 tok/s
iPhone 13 and older	A15 / A14	CPU only	2–3 tok/s

구형 iPhone도 CPU 추론으로 E2B 모델을 실행할 수 있지만 속도가 느립니다(초당 2–4 토큰). A17 Pro 칩이 탑재된 iPhone 15 Pro 이상은 Metal GPU 가속이 활성화되어 실용적인 실시간 속도를 제공합니다.

성능 벤치마크

Task	iPhone 15 Pro (A17)	iPhone 16 Pro (A18 Pro)
Text generation (tok/s)	14	21
First token latency	~0.4s	~0.25s
512→512 token throughput	11 tok/s	17 tok/s
RAM usage (peak)	2.8 GB	2.6 GB
Battery drain (per hour)	~18%	~14%

Gemma 4 E2B Q4_K_M, 512 토큰 프롬프트, Metal GPU 사용 시 토큰/초. CPU 전용 폴백은 3–5배 느립니다.

최고 성능을 위한 팁

Q4_K_M 양자화 사용 — 모바일에서 최고의 품질/속도 균형
추론 전에 다른 앱을 닫아 RAM 확보
가장 빠른 응답을 위해 프롬프트를 2K 토큰 이내로 유지
장시간 사용 시 충전기 연결 — 추론은 GPU를 집중적으로 사용