Лавины, таймауты, Chaos Engeneering, повторные запросы — в карточках рассказываем, как ничего не уронить, об основных паттернах отказоустойчивости и об инструментах, которые помогают избегать крупных сбоев в микросервисных системах. Опытом делится Кирилл Борисов, SRE в ситуационном центре.
Более продвинутые инструменты и чек-листы для самопроверки ищите в статье: https://vk.cc/cQmFfq.