빅테크(대형 IT 기업)는 시스템 및 애플리케이션의 신뢰성이 비즈니스에 얼마나 중요한지 깨달았다. 동시에 사용자와 시장의 요구사항을 만족하면서 안정성을 유지하는 것이 얼마나 어려운지 알게 되었다. SRE(Site Reliability Engineering, 사이트 신뢰성 엔지니어링)를 통해 해결해야할 중요한 과제가 이제 모두에게 주어졌다.
SRE는 쉽게 설명하기에는 무척 범위가 넓고 복잡한 주제다. SRE 분야에서 앞서 나가고 있는 구글은 『사이트 신뢰성 엔지니어링: 구글이 공개하는 서비스 개발과 운영 노하우』를 통해 SRE를 공유했다. 이 책은 구글의 SRE에 대한 시각을 통해 현재 빅테크 SRE 세계에서 진행 중인 중요한 주제들을 기록하고 있다. 기업의 리더와 현장의 엔지니어가 SRE를 어떻게 접근하고 구현하려고 하는지를 살펴볼 수 있다. 또한 SRE에서 일반화될 첨단 기술, SRE를 보다 쉽게 수행할 수 있는 베스트 프랙티스뿐 아니라 그동안 논의되지 않았지만 SRE의 인간적 측면에 대한 의견도 담았다.
Contents
INTRODUCTION 소개의 글
PART 1 SRE 구축
CHAPTER 1 SRE 관점에서 문맥과 통제
CHAPTER 2 SRE 인터뷰
CHAPTER 3 그래서 SRE 팀을 구성하고 싶은가?
CHAPTER 4 장애 측정 지표를 사용해 SRE 개선하기
CHAPTER 5 외부 업체와 협력해 일을 제대로 진행하기
CHAPTER 6 전담 SRE 팀 없이 SRE 원칙을 적용하는 방법
CHAPTER 7 SRE 없는 SRE 문화: 스포티파이(Spotify) 사례 연구
CHAPTER 8 대기업의 SRE 도입
CHAPTER 9 시스템 관리자와 SRE 간의 차이
CHAPTER 10 SRE 문화 바로 세우기
CHAPTER 11 데브옵스가 사랑하는 SRE 패턴
CHAPTER 12 데브옵스와 SRE: 커뮤니티의 목소리
CHAPTER 13 페이스북의 프로덕션 엔지니어링
PART 2 새로운 SRE 직무
CHAPTER 14 태초에 혼돈이 있었다
CHAPTER 15 신뢰성과 프라이버시의 교차점
CHAPTER 16 데이터베이스 신뢰성 엔지니어링
CHAPTER 17 데이터 내구성을 향상시키는 엔지니어
CHAPTER 18 SRE를 위한 머신러닝 소개
PART 3 SRE 베스트 프랙티스 및 기술
CHAPTER 19 더 좋은 문서 만들기: 엔지니어링 워크플로우에 문서 통합
CHAPTER 20 능동적인 교육과 학습
CHAPTER 21 SLO 기술과 과학
CHAPTER 22 성공적인 문화를 가진 SRE
CHAPTER 23 SRE 안티패턴
CHAPTER 24 불변 인프라와 SRE
CHAPTER 25 스크립트를 사용할 수 있는 로드밸런서
CHAPTER 26 서비스 메시: 마이크로서비스의 조련사
PART 4 SRE의 인간적인 면
CHAPTER 27 SRE의 심리적 안전
CHAPTER 28 SRE 인지 업무
CHAPTER 29 번아웃 이겨내기
CHAPTER 30 온콜에 대하여: 반론
CHAPTER 31 복잡한 시스템을 위한 애가
CHAPTER 32 운영과 사회활동의 교차점
CHAPTER 33 맺음말