Multi-Burn-Rate-Alerting-Strategie für ein Frankfurter Cloud-SaaS-Team
Übersicht
Worum es bei diesem Projekt geht.
Sie erhalten die 230 bestehenden Alarmregeln, die 5 SLOs des Teams (bereits dokumentiert) und die On-Call-Postmortems der letzten 12 Wochen. Klassifizieren Sie die 230 Alarme in 4 Kategorien (SLO-relevant, Symptom-Alarm, Capacity-Alarm, Rauschen). Designen Sie pro SLO eine Multi-Burn-Rate-Strategie mit zwei Fenstern (z. B. 1h-Fenster mit 14.4-fachem Burn für Page; 6h-Fenster mit 6-fachem Burn für Ticket). Berechnen Sie die Burn-Rate-Schwellen rückgekoppelt zu Error-Budget und Detection-Latenz. Eliminieren oder konsolidieren Sie die übrigen Alarme so, dass NUR symptombasiertes Paging übrig bleibt — keine Cause-basierten Alarme. Simulieren Sie die neue Konfiguration gegen die historischen Postmortems (würden die SLO-Verletzungen erkannt? Wie viele False Pages?). Liefern Sie die neuen Alarmregeln (YAML), ein Simulations-Notebook, ein 14-seitiges Alerting-Design-Dokument und ein On-Call-Onboarding-Spickzettel.
Das Briefing
Was Du tust und was Du zeigst.
Wie reduziert eine Multi-Burn-Rate-Alerting-Strategie 230 Prometheus-Alarme auf < 10 pro Woche, ohne dabei SLO-Verletzungen zu verpassen?
Earning criteria — what you'll demonstrate
- Multi-Burn-Rate-Alerting nach dem Google SRE Workbook designen
- Cause-basierte von symptombasierten Alarmen sauber unterscheiden
- Alarm-Strategien gegen historische Postmortems simulativ validieren
- On-Call-Health als Engineering-Verantwortung ernst nehmen
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenNoch eine Sache