(paso a paso, sin humo y empezando con open source)

Durante años, me acostumbré a vivir con un ruido constante: alertas que no decían gran cosa, logs imposibles de seguir y dashboards que parecían más fuegos artificiales que herramientas útiles. Y aunque sabía que la automatización era el camino, la verdad es que siempre sentía que no tenía tiempo para “pararme a hacerlo bien”. Hasta que un día, me di cuenta de que ese caos era el resultado de no haber empezado antes.

Así comenzó este viaje: mi hoja de ruta personal para automatizar toda la infraestructura con inteligencia artificial. No desde el discurso del “todo con IA” o “NoOps mágico”, sino desde lo que realmente se puede construir, paso a paso, con herramientas abiertas y mucho criterio. Y, como todo proceso real, hay partes que ya tengo montadas y otras en las que sigo trabajando.

Empezar despacio, pero bien

Cuando uno oye hablar de IA en operaciones, suele imaginar sistemas que “piensan por sí solos”. Pero la verdad es que el punto de partida es mucho más terrenal: tener datos fiables y organizados.
Sin eso, cualquier intento de IA es como intentar aprender a conducir con los ojos vendados.

Así que lo primero que hice fue poner los cimientos. Monté Prometheus para métricas, Grafana para visualización y Loki (junto con Vector.dev) para centralizar logs. También estoy explorando OpenObserve, que me ha sorprendido por su rendimiento y lo ligera que puede ser su arquitectura. Con esto, conseguí lo más básico: ver en un mismo sitio qué está pasando en mis hosts, en mis servicios críticos y en el almacenamiento.

No son herramientas sofisticadas, pero sí sólidas. Y sobre todo, me dan control. Cuando configuras tus propias métricas y tus propios dashboards, entiendes de verdad qué está midiendo cada cosa. No dependes de un panel automático que te lanza mil datos sin contexto. El objetivo aquí no es “tenerlo todo”, sino tener lo que importa. Aprendí rápido que intentar monitorizar hasta el último parámetro solo genera ruido. Es mejor empezar con los servicios que más duelen cuando fallan, esos que te quitan el sueño. Con eso, ya tenía mi primera pequeña victoria: pasé de enterarme cuando algo petaba, a detectarlo en cuestión de minutos.

Reducir el ruido: menos alertas, más señales

Una vez tienes métricas y logs centralizados, el siguiente problema aparece rápido: el ruido. Las alertas saltan por todo, y lo único que consigues es que el equipo empiece a ignorarlas. A mí me pasaba: a las dos semanas, ya nadie les hacía caso.Entonces decidí concentrarme en simplificar. Configuré Alertmanager para agrupar y priorizar alertas, pero sobre todo, me centré en crear reglas que tuvieran sentido. Por ejemplo, si seis sondas del mismo servidor caen a la vez, no quiero seis alertas. Quiero una sola, que me diga que ese host está teniendo un problema serio. Si algo falla cinco minutos y se recupera solo, no necesito que me despierte a las tres de la mañana.

Con unas cuantas reglas de este tipo, el cambio fue brutal. Pasé de tener decenas (a veces cientos) de alertas diarias, a solo unas pocas, pero todas con sentido. Y aquí es donde empezó a aparecer el primer “cerebro” en el sistema: sin usar IA todavía, simplemente aplicando correlación y contexto. Porque AIOps, al principio, no va de redes neuronales: va de entender bien tus señales.

Entender antes de automatizar

Cuando logré calmar el ruido, vino el paso más interesante: entender realmente qué estaba pasando cuando algo fallaba. Hasta ese momento, las alertas me decían qué estaba roto, pero no por qué.
Y claro, sin entender la causa, cualquier intento de automatización sería puro azar. Aquí empecé a jugar más en serio con los datos. Analicé patrones en logs y métricas para ver si ciertos comportamientos se repetían antes de un fallo. Por ejemplo, picos de latencia que anticipaban caídas, o errores que solo aparecían los lunes a cierta hora. También empecé a usar percentiles (p95 y p99) en lugar de medias, porque descubrí que las medias engañan mucho: un promedio puede parecer normal mientras un pequeño grupo de peticiones está sufriendo de verdad.

No es IA todavía, pero empieza a ser inteligencia operativa. Y lo mejor: todo se puede hacer con consultas bien pensadas en Grafana o en Loki, sin grandes infraestructuras. En esta etapa, mi meta era una sola: que cada vez que algo fallara, pudiera explicarlo con datos. No resolverlo por instinto, sino por evidencia. Y ese cambio mental es lo que de verdad abre la puerta a la automatización con IA más adelante.

Automatizar con cabeza

Una vez sabes qué pasa y por qué, el paso natural es automatizar las respuestas más repetitivas. Pero aquí hay una trampa: automatizar no es soltar scripts a lo loco. Aprendí a hacerlo con guardarraíles, con confirmaciones, bitácoras y reversibilidad. Empecé por lo obvio: las diez tareas que más veces había repetido a mano. Reiniciar un servicio, limpiar una cola de mensajes, rotar logs, escalar una réplica, cosas así.
Escribí playbooks en Ansible y algunos scripts en Bash, y los integré con un sistema de ChatOps sencillo usando n8n. Ahora puedo ejecutar acciones desde el chat del equipo, con confirmación y registro de todo lo que se hace.

El impacto no es solo técnico, también mental. Te cambia la forma de trabajar. Dejas de reaccionar con prisas y empiezas a confiar en tus propios procesos. Y sí, la primera vez que automatizas algo que antes hacías a las tres de la mañana, no puedes evitar sonreír.

Crear memoria: el paso que casi nadie hace

Algo que descubrí pronto es que cada incidente te enseña algo… pero solo si lo capturas. Por eso, una de las cosas que estoy trabajando ahora es la memoria operativa: documentar qué funcionó, cómo se resolvió y qué se podría automatizar la próxima vez.

Uso un repositorio en Git donde guardo reglas, consultas, playbooks y hasta post-mortems ligeros. Nada formal, solo un resumen de qué pasó, cómo lo detectamos y qué aprendimos. Con eso, el sistema empieza a mejorar semana a semana, porque cada experiencia se convierte en conocimiento reutilizable.

Es curioso, pero este paso, que suena poco glamuroso, es el que más valor aporta a largo plazo. Sin memoria, todo se repite. Con memoria, cada incidente te deja un sistema un poco más sabio.

Meter IA (cuando tiene sentido)

Solo ahora, después de tener datos, entendimiento y memoria, tiene sentido hablar de IA. Y no para hacer magia, sino para agilizar la comprensión y la comunicación.

Estoy empezando a introducir IA generativa (lo que algunos llaman GenAIOps) para tareas muy concretas: por ejemplo, generar resúmenes automáticos de incidentes, explicar métricas en lenguaje natural o crear consultas complejas sin tener que recordarlas de memoria. No dejo que la IA ejecute nada en producción, pero sí la uso como asistente. Y sinceramente, es un salto enorme.

Un ejemplo: antes, para revisar un incidente, tenía que abrir varios paneles, leer logs y cruzar datos mentalmente. Ahora, puedo pedirle al asistente que me explique qué pasó entre las 2 y las 3 AM, y me devuelve un resumen con enlaces a las gráficas relevantes. Es como tener un compañero que ya leyó todo por ti y te señala lo importante.

Eso es GenAIOps: no sustituir criterio, sino multiplicar contexto. Y solo funciona bien cuando la base está sólida.

Lo que viene: hacia el “NoOps real”

Todavía me queda camino por recorrer. Estoy en ese punto donde muchas tareas ya se resuelven solas y el sistema avisa antes de romperse, pero aún hay mucho por pulir. El verdadero “NoOps” no significa que no haya operaciones, sino que las operaciones no dependan del cansancio humano. Es tener una infraestructura que se mantiene estable, aprende de sus fallos y deja a las personas hacer lo que mejor hacemos: diseñar, mejorar y anticipar. Y para llegar ahí, la IA no es el final, es el medio. Un copiloto, no un piloto automático.

Cierro, pero esto apenas empieza

Si algo aprendí en este proceso es que no hace falta ser una gran empresa ni gastar millones para empezar a automatizar con inteligencia. Con herramientas open source, un poco de paciencia y una mentalidad de mejora continua, puedes transformar completamente la forma en que gestionas tu infraestructura. Yo sigo en el camino. Cada semana voy afinando algo, conectando piezas, probando integraciones nuevas y midiendo lo que mejora. Y como este proceso me está enseñando tanto, he decidido contarlo todo: paso a paso, con aciertos, errores y aprendizajes. Explicaré los primeros pasos hasta llegar el punto en el que me encuentro para que veas los pasos que he ido siguiendo.

Así que si te interesa ver cómo evoluciona todo esto —desde los primeros scripts hasta la IA explicando incidentes—, iré compartiendo cada etapa aquí en el blog y en mi canal de YouTube. Nada de humo: solo práctica, datos y mucho trabajo real detrás.

Nos vemos en el siguiente capítulo.

¡Sigue, comenta y comparte!

Seguro que esto te interesa

 

Nothing Found