雪泥鴻爪--IT技術者の随筆

SLOに対する理解が重要ですね。
要は、未然防止のためにやる指標で、障害対応のため(SLA)ではない。
ユーザが気づく前に、まずSREチームが問題を検知。

Typical SLOs at Google include:
uptime of 99.9% a month (i.e. 43 minutes of downtime a month)
99.99% of HTTP requests in a month succeed with a 200 OK
50% of HTTP requests returned in under 300ms

Monitoring SRE's Golden Signals

监控SRE的黄金信号

meituanのSRE実践

美团点评的SRE发展与实践

システム構成と業務フローより、考え方の方が参考になりました。

ポリシー
・安定性
・効率
・原価

雪泥鴻爪--IT技術者の随筆

Results tagged “SRE”

正しいSREのやり方

Monitoring SRE's Golden Signals

meituanのSRE実践