Tutorial

Gemma 4 Tutorial de Instalación

Instrucciones paso a paso para instalar y ejecutar Gemma 4 en tu máquina — desde configurar un entorno Python hasta ejecutar tu primera inferencia. Cubre tanto el SDK de Python como Ollama.

Python pip Ollama CUDA

Requisitos Previos

Requisitos del Sistema

OS	Linux, macOS, or Windows (WSL2)
Python	3.9 or higher (3.11 recommended)
GPU	NVIDIA with 6 GB+ VRAM (optional but recommended)
CUDA	12.1+ (if using GPU)
RAM	16 GB+ system RAM
Disk	20–60 GB free space per model

Cuenta de Hugging Face

Crea una cuenta gratuita en huggingface.co
Visita la página del modelo (ej. google/gemma-4-E4B-it)
Haz clic en "Acceder al repositorio" y acepta la licencia
Genera un token de lectura en Settings → Access Tokens

El acceso al modelo es gratuito — Google solo requiere aceptar la licencia.

Paso 1 — Configurar Entorno Python

Usando Conda (Recomendado)

# Create a dedicated Python environment
conda create -n gemma4 python=3.11 -y
conda activate gemma4

Usando venv

python -m venv gemma4-env
# Linux/macOS:
source gemma4-env/bin/activate
# Windows:
gemma4-env\Scripts\activate

Paso 2 — Instalar Dependencias

# Core dependencies
pip install -U transformers torch accelerate

# Optional: quantization support
pip install bitsandbytes

# Optional: faster inference
pip install flash-attn --no-build-isolation

Para usuarios de GPU: PyTorch selecciona CUDA automáticamente si está disponible. Verifica con python -c "import torch; print(torch.cuda.is_available())".

Paso 3 — Autenticarse con Hugging Face

# Install Hugging Face CLI
pip install huggingface_hub

# Authenticate (get your token at huggingface.co/settings/tokens)
huggingface-cli login

Paso 4 — Descargar el Modelo

Descargar via Python

# Download the E4B model (recommended for 8-16 GB VRAM)
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id="google/gemma-4-E4B-it",
    local_dir="./models/gemma4-e4b"
)

Referencia de Tamaño de Modelos

Model	Download Size
E2B	~4.6 GB
E4B	~8.0 GB
31B	~58 GB
26B A4B	~48 GB

Paso 5 — Verificar Instalación

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

print("PyTorch:", torch.__version__)
print("CUDA available:", torch.cuda.is_available())
if torch.cuda.is_available():
    print("GPU:", torch.cuda.get_device_name(0))
    print("VRAM:", round(torch.cuda.get_device_properties(0).total_memory / 1e9, 1), "GB")

# Quick load test
processor = AutoProcessor.from_pretrained("google/gemma-4-E4B-it")
print("Processor loaded OK")

Paso 6 — Ejecutar tu Primera Inferencia

from transformers import AutoProcessor, AutoModelForCausalLM
import torch

MODEL_ID = "google/gemma-4-E4B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

messages = [{"role": "user", "content": "Explain what Gemma 4 is in 2 sentences."}]
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=200)
print(processor.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))

Alternativa — Ollama (Sin Python)

¿Prefieres una configuración más simple? Ollama lo maneja todo automáticamente:

# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh

# Windows: download installer from ollama.com
# Then in terminal:
ollama pull gemma4:e4b
ollama run gemma4:e4b