[Слёрм] [Иван Круглов, Павел Селиванов] SRE онлайн-интенсив [2020]
На курсе вы будете:
Строить
Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких
микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит,
соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.
Ломать
Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной
нагрузкой.
Чинить
Организуете работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Имитация реальных условий: восстановление работоспособности сервиса в условиях предельно ограниченного времени.
Изучать
Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.
Требования к участникам:
- Свободное владение Linux;
- Любой язык программирования: уровень Junior;
- GitLab: навыки автоматизации;
- Prometheus: навыки мониторинга;
- Kubernetes: навыки работы в кластере.
Тема №1: Основные принципы и методы SRE
* Что нужно чтобы стать SRE?
* DevOps vs SRE
* Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
* SLI, SLO и SLA
* Error budget и его роль в SRE
Тема №2: Дизайн распределенных систем
* Архитектура и функционал приложения
* Non-Abstract Large System Design
* Operability / Design for failure
* gRPC или REST
* Версионирование и обратная совместимость
Тема №3: Как принимают проект SRE
* Лучшие практики от SRE
* Чек-лист приема проекта
* Логирование, метрики, трейсинг
* Забираем CI/CD в свои руки
Тема №4: Проектирование и запуск распределенной системы
* Обратное проектирование — как работает система?
* Согласовываем SLI и SLO
* Практика capacity planning
* Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
* Запускаем Prometheus, Grafana, Elastic
Тема №5: Monitoring, Observability and Alerting
* Monitoring vs. Observability
* Настраиваем мониторинг и алертинг с Prometheus
* Практический мониторинг SLI и SLO
* Symptoms vs. Causes
* Black-Box vs. White-Box Monitoring
* Распределенный мониторинг доступности приложений и серверов
* 4 золотых сигнала (обнаружение аномалий)
Тема №6: Практика тестирования надежности систем
* Работа под давлением
* Failure-injection
* Chaos Monkey
Тема №7: Практика incident response
* Алгоритм управления стрессом
* Взаимодействие между участниками инцидента
* Постмортем
* Knowledge sharing
* Формирование культуры
* Контроль неисправностей
* Проведение blameless разбора полетов
Тема №8: Практика управления нагрузкой
* Балансировка нагрузки
* Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
* DDoS (создаем нагрузку) + Cascading Failures
Тема №9: Реагирование на инциденты
* Разбор полетов
* Практика On-Call
* Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
* Протоколы управления инцидентами
Тема №10: Диагностика и решение проблем
* Журналирование
* Отладка
* Практика анализа и отладки на нашем приложении
Тема №11: Тестирование надежности систем
* Нагрузочное тестирование
* Тестирование конфигураций
* Тестирование производительности
* Canary release
Тема №12: Самостоятельная работа и ревью
* Реальные кейсы
* Проверка спикерами
—————————————————————————
🔗 Продажник:
Доступно пользователям: Зарегистрированный
📥 СКАЧАТЬ КУРС:
Для просмотра содержимого вам необходимо Войти или Зарегистрироваться.
🔐 Хотите получить доступ?
Чтобы увидеть скрытые ссылки и ставить лайки, активируйте VIP-статус.
💎 ПОЛУЧИТЬ ДОСТУП Наш Telegram канал