Results tagged “SRE”

正しいSREのやり方

Google Explains Why Others Are Doing SRE Wrong

Google诠释其它企业在实施SRE中的错误

SLOに対する理解が重要ですね。
要は、未然防止のためにやる指標で、障害対応のため(SLA)ではない。
ユーザが気づく前に、まずSREチームが問題を検知。

Typical SLOs at Google include:

uptime of 99.9% a month (i.e. 43 minutes of downtime a month)
99.99% of HTTP requests in a month succeed with a 200 OK
50% of HTTP requests returned in under 300ms