Wissen

Was ist SRE?

Site Reliability Engineering (SRE) ist eine von Google geprägte Philisophie, wie (insbesondere große und komplexe) IT-Systeme betrieben werden können.
SRE ist dabei eng verwandt mit und keinesfalls konträr zu sehen zu DevOps (einen kurzen Überblick über das Thema DevOps liefert der Artikel Was bedeutet eigentlich „DevOps“?). Eine Sichtweise liegt darin, dass SRE beschreibt, wie DevOps Prinzipen konkret und praxisnah angewendet werden können (siehe auch: How SRE Relates to DevOps. SRE geht unter anderem auf die Idee zurück, den Softwarebetrieb durch ein Entwicklerteam zu designen und durchzuführen.


Eine Folge davon ist das Ziel, einen hohen Automatisierungsgrad zu erreichen, indem die Entwickler (bzw. die SREs) “langweilige” und wiederkehrende Themen automatiseren (“Automate This Year’s Job Away”). Im Idealfall nimmt letztlich der eigentliche Betriebsaufwand weniger als die Hälfte Aufwände im SRE-Team ein. Der Rest der Zeit steht für Optimierungsmaßnahmen, Automatisierung und allgemeine Verbesserungsmaßnahmen zur Verfügung, die allesamt in enger Zusammenarbeit mit dem Entwicklerteam stattfinden. Für eine genauere Beschreibung, was SRE ist, sei an dieser Stelle auf das SRE-Buch von Google verwiesen.

SRE und der Mainframe

“Bei uns auf dem Mainframe hat Reliability doch schon seit Jahrzehnten oberste Priorität. Eigentlich ist SRE nur ein anderer Name für das, was wir schon immer so machen (und was jetzt auch so langsam mal in der verteilten Welt ankommen zu scheint)”, hört man schon den erfahrenen Systemadministrator sagen und blitzschnell öffnet er eine der unzähligen REXXe, um zu zeigen, wie hoch der Automatisierungsgrad im Mainframebetrieb auch heute schon ist.

Doch hat er Recht mit dieser Einschätzung? Kann Google also noch viel lernen vom Mainframe? Oder gibt es umgekehrt Gründe, sich auch als eingefleischter Mainframer mit dem Thema SRE intensiver zu beschäftigen?

Wir sagen ja, es lohnt sich!

Obwohl in SRE aus Mainframe-Sicht viele “bekannte” Aspekte auftauchen, geht es in vielen Bereichen deutlich weiter als der klassische Mainframe-Betrieb: Im wesentlichen beinhaltet SRE Maßnahmen, um den Zielkonflikt zwischen Entwicklung und dem Betrieb nachhaltig zu reduzieren und legt einen nachhaltigen Wert auf Erreichung einer größtmöglichen Änderungsgeschwindigkeit bei Einhaltung der SLAs, indem die Zusammenarbeit zwischen Entwicklung und Betrieb intensiviert und verbessert wird. Im Ergebnis wird die Verantwortlichkeit zwischen Stabilität und Veränderung nicht mehr aufgeteilt auf zwei Teams, sondern beide Teams arbeiten gemeinsam an einer bestmöglichen Umsetzung der Anforderungen, die nicht auf Kosten der Stabilität erfolgt.

Haben wir Ihr Interesse geweckt?
Wollen Sie mehr erfahren, wie auch Ihr Mainframe von SRE profitieren kann und welche Maßnahmen Sie konkret treffen können, um die Zusammenarbeit zwischen Betrieb und Entwicklung nachhaltig verbessern können?

Kontaktieren Sie uns unter wto@living-mainframe.de und wir begleiten Sie auf Ihrem Weg hin zu Mainframe-SRE!