Почему простой в инфраструктуре, который по SLA должен уложиться в 15 минут, регулярно растягивается на 45?
Причина проста: на рабочих серверах отсутствуют базовые утилиты, такие как strace, tcpdump, lsof.
Вместо оперативного устранения неполадок, инженер вынужден тратить время на установку недостающих инструментов, в то время как значительная часть сервиса уже не функционирует.
В этой статье мы разберем, как возникает подобная ситуация, какие инструменты должны быть предустановлены на каждом Linux-хосте до возникновения первого сбоя, а также какие организационные подходы способны сделать инфраструктуру более устойчивой к инцидентам.
Preparo da Infraestrutura Linux para Incidentes: O Mínimo Necessário
Por que uma interrupção na infraestrutura, que segundo o SLA deveria ser resolvida em 15 minutos, regularmente se estende por 45?
A razão é simples: em ambientes de produção faltam utilitários básicos como strace, tcpdump, lsof.
Em vez de corrigir falhas prontamente, o engenheiro precisa gastar tempo instalando as ferramentas ausentes, enquanto uma parte significativa do serviço já está indisponível.
Neste artigo, analisaremos como essa situação surge, quais ferramentas devem estar pré-instaladas em cada host Linux antes do primeiro incidente, e quais práticas organizacionais tornam a infraestrutura mais resiliente a falhas.
