El HAT que convierte tu Raspberry Pi en un nodo de IA local — y lo que nadie te cuenta del setup
El Raspberry Pi AI HAT+ 2 con Hailo-10H lleva inferencia local a la Pi 5. Ollama 100% local. Te contamos lo que nadie te dice del setup.
Un developer pasó varios días intentando compilar los drivers del Hailo-10H a mano en Ubuntu. Kernel modules, mismatches de versiones de compilador, el device aparece en /dev/hailo0 pero no comunica con el runtime. Al final lo tiene funcionando — Ollama corriendo con OpenWebUI, 100% local, sin mandar un solo token a ningún servidor externo.
Qué es exactamente
El Raspberry Pi AI HAT+ 2 es un módulo de expansión en formato HAT que se conecta directamente al slot PCIe de la Raspberry Pi 5. Integra el chip Hailo-10H, una NPU diseñada específicamente para inferencia de modelos de IA con un TDP de ~3W.
Las especificaciones que importan para builders:
- 26 TOPS de potencia de cómputo para inferencia
- Interfaz PCIe Gen 3 via el conector HAT+ de la Pi 5
- Compatible con el ecosistema HailoRT para inferencia acelerada
- Dimensiones HAT estándar — cabe en cualquier caja de Pi
La NPU no sustituye a la CPU para modelos grandes, pero sí descarga completamente las capas de inferencia más pesadas. En la práctica, la diferencia es notable para modelos de hasta 7B parámetros en quantización Q4.
Por qué nos interesa
El ángulo interesante no es la velocidad bruta — para eso compras una GPU. Es el consumo. Una Pi 5 con el AI HAT+ 2 consume en total menos de 15W bajo carga completa de inferencia. Eso significa que puedes tener un nodo de IA local funcionando 24/7 por menos de 20€ al año en electricidad.
Para builders que quieren un agente doméstico permanente, o un pipeline de STT/TTS corriendo continuamente en casa, esa ecuación cambia todo.
La compatibilidad con Ollama via la capa hailo-ollama permite usar el ecosistema estándar sin cambios en tu código. Si ya tienes pipelines con Ollama, la transición es transparente.
# Instalar Ollama en RPi OS (Debian-based — NO Ubuntu)
curl -fsSL https://ollama.com/install.sh | sh
# Descargar un modelo pequeño para empezar
ollama pull llama3.2:3b
# Ejecutar con inferencia en NPU
ollama run llama3.2:3b
# Verificar que usa la NPU y no la CPU:
ollama ps
Cómo empezar
El punto de entrada correcto es RPi OS, no Ubuntu. Esto no es una preferencia — los drivers del Hailo-10H solo tienen paquetes precompilados para RPi OS. En Ubuntu tendrás que compilar contra el kernel manualmente, y cualquier actualización menor te lo rompe.
Con RPi OS, la instalación es:
# Habilitar interfaz PCIe en config.txt
echo "dtparam=pciex1" | sudo tee -a /boot/firmware/config.txt
# Instalar HailoRT desde los repositorios de Raspberry Pi
sudo apt install hailo-all
# Verificar que el hardware es visible
hailortcli fw-control identify
Si hailortcli devuelve la información del firmware, el hardware está correctamente conectado. Si no, revisa el conector HAT+ — tiene que estar completamente encajado.
Lo que no te van a contar
El ecosistema software del Hailo-10H en 2026 todavía es joven, y se nota. Si intentas instalarlo en Ubuntu en lugar de RPi OS, prepárate para compilar drivers contra el kernel manualmente — y que una actualización menor del kernel te lo rompa.
El HAT brilla más para tareas de visión por computador que para LLMs puros. El chip fue diseñado originalmente para pipelines de CV (detección de objetos, segmentación), y la aceleración de LLMs es un caso de uso más nuevo con menos soporte. Para Whisper, en cambio, va muy bien.
También: si tu caso de uso requiere modelos de más de 13B parámetros, la NPU no va a ser suficiente. El HAT complementa, no reemplaza, el cómputo de CPU para modelos grandes.
Veredicto
Para quien quiere un nodo de IA local permanente con bajo consumo y sin costes recurrentes, el combo Pi 5 + AI HAT+ 2 es la opción más accesible de 2026. No es para quien busca velocidad de producción. Es para el homelab, el agente doméstico, el experimento que quieres dejar corriendo sin que te cueste nada al mes.