Cómo instalar y usar Ollama en local

⏱ 4 min de lectura
Ollama IA local Llama 3 Open Source

¿Qué es Ollama?

Ollama es una herramienta que permite ejecutar modelos de lenguaje de código abierto directamente en tu ordenador. Sin cuentas, sin suscripciones, sin enviar datos a la nube. Todo se ejecuta en local y funciona incluso sin conexión a internet.

Es la opción ideal si te preocupa la privacidad, quieres experimentar con modelos abiertos o simplemente no quieres pagar suscripciones mensuales.

Modelos disponibles

ModeloTamañoMejor uso
Llama 3.3 70B40 GBEl más capaz, necesita GPU potente
Llama 3.2 8B4.7 GBEquilibrio calidad/velocidad
Mistral 7B4.1 GBRápido, buen rendimiento general
Gemma 2 9B5.5 GBModelo de Google, bueno en razonamiento
Qwen 2.5 7B4.4 GBBueno en código y matemáticas
Phi-3 Mini2.3 GBMuy ligero, ideal para hardware limitado
DeepSeek Coder V28.9 GBEspecializado en programación

Requisitos del sistema

  • macOS: Apple Silicon (M1/M2/M3/M4) recomendado, 8 GB RAM mínimo
  • Linux: 8 GB RAM, GPU NVIDIA con CUDA opcional
  • Windows: Windows 10/11, 8 GB RAM (16 GB recomendado)
  • Disco: entre 2 y 40 GB según el modelo que descargues

Paso 1: Instalar Ollama

macOS

# Opción 1: Descarga directa desde ollama.com
curl -fsSL https://ollama.com/install.sh | sh

# Opción 2: Con Homebrew
brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

Descarga el instalador desde ollama.com/download y ejecútalo.

Verifica la instalación:

ollama --version

Paso 2: Descargar tu primer modelo

# Descargar Llama 3.2 (8B) - buena opción para empezar
ollama pull llama3.2

# Otros modelos populares
ollama pull mistral
ollama pull gemma2
ollama pull qwen2.5
ollama pull deepseek-coder-v2

La primera descarga tarda según tu conexión. Los modelos se guardan en ~/.ollama/models/.

Paso 3: Chatear con el modelo

# Iniciar una conversación
ollama run llama3.2

Se abre un chat interactivo en terminal. Escribe tu pregunta y pulsa Enter:

>>> Explícame qué es una API REST en términos sencillos

Una API REST es como un camarero en un restaurante...

Para salir, escribe /bye o pulsa Ctrl+D.

Paso 4: Usar la API local

Ollama expone una API HTTP local en el puerto 11434:

# Consulta simple
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "¿Qué es machine learning?",
  "stream": false
}'

Esto permite integrar Ollama con cualquier aplicación, script o interfaz web.

Paso 5: Interfaces gráficas

Si prefieres una interfaz visual en lugar del terminal:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Abre http://localhost:3000 y tendrás una interfaz similar a ChatGPT conectada a tus modelos locales.

Comandos útiles

ComandoAcción
ollama listVer modelos instalados
ollama pull modeloDescargar un modelo
ollama run modeloChatear con un modelo
ollama rm modeloEliminar un modelo
ollama show modeloVer detalles del modelo
ollama cp modelo nuevoCopiar/renombrar modelo

Rendimiento según hardware

  • Mac M1/M2 (8 GB): modelos de 7B fluidos, 13B más lento
  • Mac M3/M4 (16 GB+): modelos de hasta 30B sin problemas
  • GPU NVIDIA RTX 3060+: modelos de 7-13B muy rápidos
  • Solo CPU (16 GB RAM): modelos de 7B funcionales pero lentos

Ollama vs ChatGPT

AspectoOllamaChatGPT
PrecioGratis20€/mes (Plus)
PrivacidadTotal (local)Datos en la nube
InternetNo necesarioObligatorio
CalidadBuena (depende del modelo)Excelente
VelocidadDepende de tu hardwareRápido siempre

Ollama no sustituye a ChatGPT en calidad bruta, pero es ideal para tareas donde la privacidad importa, quieres experimentar sin coste o necesitas IA sin conexión.