Respuesta Rápida:
Disponibilidad es el porcentaje de tiempo que tu aplicación está funcionando; recuperación es la velocidad con la que regresa cuando algo falla. Según el libro Site Reliability Engineering de Google, 99.9% de disponibilidad permite 8.76 horas de caída al año, mientras que 99.99% reduce ese presupuesto a apenas 52.6 minutos anuales. La diferencia cuesta dinero real.
Puntos Clave:
Casi todos los dueños de negocio que conocemos —en Houston, Cypress, Monterrey o Bogotá— responden lo mismo cuando preguntamos por su plan de recuperación ante desastres: "el desarrollador lo tiene". Es una respuesta peligrosa, porque cuando la tienda en línea está caída a las 8 de la mañana del Buen Fin o del Black Friday, no es el desarrollador quien pierde ventas. Eres tú.
Este artículo traduce los términos que usan los equipos de infraestructura —disponibilidad, RPO, RTO, redundancia, failover— a decisiones de negocio que tú puedes tomar sin ser ingeniero. No para que aprendas a configurar nada, sino para que sepas qué exigirle a quien sí lo configura.
La disponibilidad se expresa como un porcentaje del tiempo total que un sistema responde correctamente. Suena simple, pero la diferencia entre 99% y 99.99% no es un detalle estético: es la diferencia entre días y minutos de tiempo fuera de servicio al año.
Según el libro Site Reliability Engineering publicado por Google, los niveles canónicos son:
Tabla de los "nueves" (datos publicados por Google SRE):
Wikipedia, en su artículo de "High availability", presenta los mismos órdenes de magnitud con redondeo ligeramente distinto: 99.9% equivale a aproximadamente "9 horas" de caída anual y 99.99% a "53 minutos". Las dos fuentes coinciden en lo importante: cada nueve adicional reduce el presupuesto de caída por un factor de diez.
Lo que esto significa para el dueño de negocio: cuando un proveedor te promete "99.9% de uptime", está prometiendo que tu sitio puede estar caído casi 9 horas al año y seguir cumpliendo el contrato. Si esas 9 horas caen en tu temporada alta, el contrato se cumplió y tú perdiste ventas. Por eso la pregunta correcta no es "¿cuántos nueves prometes?", sino "¿cuándo programan las ventanas de mantenimiento?" y "¿cómo se mide el cumplimiento?".
Cuando algo falla —y va a fallar— hay dos números que definen el daño: cuánta información pierdes y cuánto tardas en regresar. La industria los llama RPO y RTO.
RPO (Recovery Point Objective) es la cantidad máxima de datos que tu negocio puede perder, medida en tiempo. Si haces respaldos cada 24 horas, tu RPO es 24 horas: en el peor escenario, pierdes un día completo de pedidos, facturas y registros de clientes. Si replicas en tiempo real, tu RPO se mide en segundos.
RTO (Recovery Time Objective) es el tiempo máximo aceptable entre la falla y el momento en que el servicio vuelve a estar operativo. Un RTO de 4 horas significa que tu equipo —o tu proveedor— se compromete a tenerte arriba en 4 horas o menos.
Según la página oficial de AWS Disaster Recovery, los servicios de replicación administrada de Amazon "habilitan RPO de segundos y RTO de minutos" para escenarios de recuperación de instalaciones locales a la nube. Eso no significa que tú necesites ese nivel —significa que existe y se puede comprar si tu modelo de negocio lo justifica.
Ejemplo numérico:
Tienda en línea que factura $20,000 USD al día. Una caída de 4 horas en un día promedio cuesta aproximadamente $3,300 en ventas perdidas; en un viernes de quincena puede triplicarse. Si tu RTO actual es "lo que tarde Carlos en contestar el WhatsApp", tu RTO real probablemente esté más cerca de 8-12 horas que de las 4 que asumes.
Disponibilidad alta no se compra con un solo servidor más grande; se construye con redundancia. Wikipedia distingue dos modelos:
Redundancia activa: "usa múltiples componentes con detección automática de fallas y reconfiguración, permitiendo alta disponibilidad sin degradación de desempeño en sistemas complejos". Pensálo como dos servidores corriendo en paralelo: si uno falla, el otro ya está procesando tráfico y el cliente nunca lo nota.
Redundancia pasiva: "acomoda degradación mediante exceso de capacidad — como un barco con dos motores que continúa operando a pesar de la falla de uno solo". El segundo motor existe pero no se usa hasta que el primero falla; hay un momento de transición donde el desempeño baja.
La diferencia importa al cotizar. Redundancia activa cuesta el doble en infraestructura pero entrega failover invisible. Redundancia pasiva cuesta menos pero introduce una ventana de degradación de minutos a horas. La decisión depende de cuánto pierdes por cada minuto fuera —no del orgullo técnico del equipo.
AWS describe en su página de Disaster Recovery un patrón que se ha vuelto estándar: los datos se replican a "una subred de área de preparación en tu cuenta de AWS" usando "almacenamiento de bajo costo y recursos de cómputo mínimos". En la práctica, esto significa que tu sitio sigue corriendo en su infraestructura principal mientras una copia espera lista, barata, en otra región. Cuando algo falla, esa copia se activa.
Dos detalles de la documentación de AWS importan al dueño de negocio:
Si tu negocio depende de una aplicación, un sitio o un sistema operando, deberías poder responder estas cinco preguntas sin llamar a nadie:
Equipos técnicos sin contexto de negocio tienden a perseguir nueves como si fueran trofeos. Pero los cinco nueves —que Google SRE documenta en apenas 5.26 minutos de caída al año— cuestan órdenes de magnitud más que los tres nueves. Para la mayoría de negocios medianos, la inversión en pasar de 99.9% a 99.99% no se recupera en ventas adicionales: la gente no abandona una marca porque el sitio estuvo caído 8 horas al año si esas horas fueron de madrugada.
La pregunta de negocio correcta no es "¿cómo llego a 99.999%?". Es "¿cuál es el costo de cada hora de caída y en qué horarios ocurre?". Esa pregunta convierte una conversación técnica abstracta en una decisión financiera concreta.
"Nadie quiebra por no tener cinco nueves. Quiebran por tener cero respaldos probados el día que pasa lo que nunca pasa."
- Diego Medina F, Founder of MerchandisePROS
El servicio de Website Consulting de MerchandisePROS combina una auditoría UI/UX con un análisis de velocidad y Core Web Vitals — el primer paso real para entender no solo qué tan rápido es tu sitio, sino qué tan resiliente es cuando falla algo. Documentamos tu RPO y RTO actuales (no los que crees que tienes), revisamos si tu hosting está realmente respaldado, y te entregamos una lista priorizada de los riesgos que pueden tumbar tu operación.
Si nunca has hecho este ejercicio, empieza por la Auditoría Gratis de 60 segundos: te muestra dónde está parado tu sitio hoy frente a competencia y frente a buenas prácticas, incluyendo velocidad de carga (la primera señal pública de problemas de infraestructura). No es un reporte de marketing; es un diagnóstico inicial que puedes llevarle a tu desarrollador o a tu próxima junta de operaciones.
Según el libro Site Reliability Engineering de Google, 99.9% de disponibilidad permite 8.76 horas de caída al año, o aproximadamente 43.2 minutos al mes. No es "casi siempre arriba": es un presupuesto explícito de tiempo fuera de servicio.
RPO (Recovery Point Objective) es cuánta información puedes perder, medida en tiempo. RTO (Recovery Time Objective) es cuánto puedes estar fuera de línea. AWS describe escenarios con RPO de segundos y RTO de minutos como el extremo más exigente del espectro.
Wikipedia define alta disponibilidad como "una característica de un sistema que busca asegurar un nivel acordado de desempeño operacional, usualmente tiempo de actividad, por un período superior al normal". En la práctica, significa diseñar con redundancia para que la falla de un componente no derribe todo el servicio.
Según Wikipedia, la redundancia activa usa múltiples componentes con detección automática de fallas y reconfiguración, manteniendo el desempeño sin degradación. La redundancia pasiva acomoda degradación mediante exceso de capacidad, como un barco con dos motores que sigue operando si uno falla.
Casi nunca. Cinco nueves (99.999%) permite solo 5.26 minutos de caída al año según Google SRE y cuesta órdenes de magnitud más que tres nueves. La pregunta correcta no es "cuántos nueves quiero", sino "cuánto me cuesta cada hora de caída en ventas reales".
Empieza con una auditoría gratis y descubre dónde está parado tu sitio frente a riesgos de infraestructura, velocidad y experiencia.
Auditoría Gratis Consulta Gratis