Критичные системы проектируются и воплощаются в жизнь с расчётом на минимальное время простоя, используя такие технологии отказоустойчивости, как избыточность на аппаратном и программном уровне, репликация данных, балансировка нагрузки, микросервисная архитектура и прочие. И, тем не менее, как вендор, мы регулярно сталкиваемся с тем, что системы дают сбой.
По нашей статистике лишь треть проблем вызваны чисто техническими причинами, остальные — так называемый «человеческий фактор» и отсутствие или нерабочие процессы сопровождения. И именно про процессы мы и поговорим на докладе.
Рассмотрим, как можно от реактивной поддержки по инцидентам перейти к проактивной — решая проблемы не по мере возникновения, а предвосхищая их. Зададим себе вопросы и попробуем понять, чего не хватает и какие процессы нуждаются в улучшении.