Problem Management und Ursachenanalyse in der IT
TenMedia ist eine dynamische Softwareagentur. Von unserem Office in Berlin betreiben wir Software,- Datenbank- und Schnittstellenentwicklung. Unsere Leistungen beinhalten außerdem einen umfassenden Maintenance Service Support. Dieser beinhalt neben Performance-Optimierung und Serverbetreuung auch diverse Leistungen aus dem Bereich Problem Management. Gern stehen wir telefonisch oder via E-Mail für Kundenanfragen zu Verfügung.
Problem Management im Überblick
- Problem Management soll IT-Problemen vorbeugen
- IT-Probleme sind in vielen Fällen geschäftsschädigend
- Problem-Management funktioniert proaktiv
- Incident-Management funktioniert reaktiv
- Grundlage für Problem-Management ist die ITIL
Was bedeutet Problem Management in der IT?
Als Teil vom IT-Infrastrukturmanagement träg Problem Management dazu bei, Probleme in IT-Systemen zu beheben und proaktiv deren Entstehung entgegenzuwirken. Ziel ist die langfristige Stabilität und Verfügbarkeit von IT-Systemen.
Dabei geht es nicht ausschließlich um das Beheben von Fehlern, sondern u.a. auch um die Analyse von IT-Problemen, um die Ursachen von Störungen zu identifizieren reduzieren. Durch kontinuierliche Maßnahmen sollen diese Störungen dauerhaft beseitigt werden. Angewandt werden dazu IT-Problem-Management Best Practices auf Grundlage der ITIL. Darüber hinaus kann auch das IT-Notfallmanagement als Teil des Problemmanagements betrachtet werden.
Definition: Problem in der IT
Als IT-Probleme gelten gemeinhin Vorfälle, die den reibungslosen Betrieb von IT-Systemen eines Unternehmens beeinträchtigen. Das Spektrum reich von einfachen Störungen bis hin zu einem IT-Notfall, der die gesamte IT-Infrastruktur lahmlegt.
IT-Probleme können durch eine Vielzahl von Faktoren verursacht werden. Darunter fallen in der Regel:
- Defekte Hardware
- Software Error
- Netzwerkprobleme
- menschliches Versagen
- Sicherheitslücken
- Naturkatastrophen
- Cyberangriffe
Warum ist Problemmanagement wichtig?
Diverse Studien belegen den direkten Zusammenhang zwischen stabilen IT-Services von Unternehmen und Kundenzufriedenheit. Jedes IT-Problem und jeder Error kann Produktionsprozesse ausbremsen. Ein BSI-Bericht von 2024 im Zusammenhang mit Crowdstrike zeigt, dass fehlerhafte Updates von Software Ursache für weltweite IT-Ausfälle sein können. Laut einer Presseinformation zum Wirtschaftsschutz 2024 des Digitalverbands Bitkom waren zwischen Auguste 2023 und August 2024 81 Prozent aller Unternehmen Opfer von Datendiebstahl, IT-Geräte-Diebstahl oder von digitaler Industriespionage.
Ein IT-Ausfall oder Cyberangriffe können zu Datenverlust führen. Die Wiederherstellung ist oft ein langwieriger Prozess, der Ressourcen bindet.
Die Ursache des Problems beheben
IT-Probleme oder Störungen können häufig durch ein hauseigenes IT-Team oder einen externen Service schnell beseitigt werden. Damit ist jedoch nicht zwingen ausgeschlossen, dass ein Problem oder ein Error nicht mehr auftaucht.
Durch ein proaktives Problemmanagement sollt dafür gesorgt werden, dass die Ursachen von IT-Vorfällen (Incidents) beseitigt werden. Besonders in KMU und Start-ups liegt der Fokus oft mehr in der Fehlerbehebung als in der Prävention. Die Gründe hierfür sind vielfältig. Hauptsächliche Ursachen sind:
- Überlastung der internen IT-Abteilung
- Mangelnde Kommunikation und Verantwortungsdiffusion
- Defizite im IT-Infrastruktur-Management
- Fokus auf Wachstum und Produktion
Vor allem für kleinere Unternehmen kann die Investition in einen externen Service sinnvoll sein. In professioneller IT-Dienstleister ist in der Regel versiert in fundiertem ITIL-Problem-Management.
Jetzt als Podcast hören!
Problem-Management vs. Incident-Management
Beide Begriffe werden oft synonym verwendet, weisen jedoch wesentliche Unterschiede auf. Doch was ist der Unterschied zwischen Incident und Problem?
Ein Incident bezeichnet eine unerwartete Störung oder Unterbrechung, die in einem IT-Service auftritt und dessen Betrieb beeinträchtigt. Das Incident-Management konzentriert sich darauf, diese Störungen schnellstmöglich zu beheben, um die betroffenen Services wiederherzustellen.
Wiederkehrende Incidents identifizieren
Im Gegensatz dazu zielt das Problem Management darauf ab, die zugrunde liegenden Ursachen wiederkehrender Incidents zu identifizieren und dauerhaft zu beheben. Wenn also Incidents wiederholt auftreten, wird ein Problem erkannt, für das das Problem Management verantwortlich ist. Der Unterschied liegt folglich darin, dass Incidents akute Störungen betreffen, während das Problem Management darauf abzielt, langfristige Lösungen zu entwickeln.
Was sind Problemlösungsmethoden in der IT?
Problemlösungsmethoden in der IT sind strukturierte Ansätze und Techniken, die verwendet werden, um IT-Probleme systematisch beheben. Neben der Beseitigung des eigentlichen Problems gehört dazu in erster Linie auch Diagnose. Sie beinhaltet die Fehlersuche und das Erkennen von einem Error oder einem sonstigen Problem. Nachdem Problem und Auswirkungen beseitigt wurden, kommt das Problem-Management ist Spiel und damit eine umfassende Analyse des zugrunde liegenden Incidents. In den nächsten Schritten werden dann in der Regel Prozesse implementiert, um zukünftige Vorfälle zu vermeiden.
Zu den gängigen Problemlösungsmethoden gehören in der Regel:
- ITIL-Problem-Management
- Ursachenanalyse (RCA)
- Brainstorming und Checklisten
- Divide and Conquer
- Trial and Error
- IT-Notfallmanagement
Was sind ITIL-Prozesse?
ITIL (Information Technology Infrastructure Library) ist ein Rahmenwerk, das Best Practices für das IT-Service-Management (ITSM) definiert. ITIL-Prozesse sind standardisierte Vorgehensweisen. Sie unterstützen Organisationen dabei, IT-gestützten Service effizient und kundenorientiert zu erbringen. Basis dafür ist ein strukturierter Ansatz zur Planung, Bereitstellung, dem Betrieb und der Verbesserung von IT-Leistungen.
Ein zentraler Aspekt von ITIL ist die proaktive Analyse von Problemen. Durch die Identifizierung der Ursache von Fehlern und wiederkehrenden IT-Problemen können Organisationen nachhaltige Lösungen implementieren. ITIL-Problem-Management spielt hierbei eine entscheidende Rolle.
Problem-Management nach ITIL
Im Zentrum des Problem-Managements nach ITIL stehen verschiedene Prozesse und Rollen, die aufeinander abgestimmt sind. Dazu gehören
- Vorausschauende Erkennung von Problembereichen
Ziel dieses Prozesses: Identifizieren frühzeitiger Problembereiche, bevor sie sich negativ auf die Service-Verfügbarkeit auswirken. Durch die proaktive Erkennung und Bereitstellung von Übergangslösungen sollen größere IT-Probleme vermieden und die Stabilität der IT-Services sichergestellt werden. - Einstufung und Dringlichkeit von IT-Problemen
Dieser Prozess besteht darin, Probleme sorgfältig zu dokumentieren und zu priorisieren. Eine strukturierte Herangehensweise ermöglicht es, schnell und effektiv eine Lösung zu finden. - Ursachenanalyse und Lösungsentwicklung
Hierbei wird die Wurzel eines Problems identifiziert, um die wirtschaftlich sinnvollste Lösung zu entwickeln. Falls erforderlich, werden vorläufige Behelfslösungen implementiert, um die Auswirkungen zu mindern. - Überwachung und Kontrolle von Problemen und Fehlern
Dieser Prozess zielt darauf ab, jedes IT-Problem und jeden Error kontinuierlich im Auge zu behalten. Sollte Handlungsbedarf bestehen, werden sofortige Maßnahmen zur Behebung eingeleitet. Dazu wird ein sogenannter Problem Record erstellt. Dieser inkludiert sämtliche Details von Probleme und Störungen Er erfasst den Lebenszyklus vom Problem von der Erkennung bis zur Behebung. - Abschluss und Bewertung des gesamten Problemlösungsprozesses
Es wird sichergestellt, dass nach der erfolgreichen Behebung eines Problems alle relevanten Informationen und Lösungsverläufe vollständig im Problem-Dokument erfasst werden. Zusätzlich werden die bekannten Fehlerberichte aktualisiert. - Hauptproblem-Analyse und Bewertung
Hierbei werden abgeschlossene größere Problemfälle rückblickend analysiert, um wertvolle Erkenntnisse zu gewinnen und zukünftige Ereignisse dieser Art zu vermeiden. Eine wesentliche Rolle spielt die Überprüfung, ob alle als gelöst markierten Probleme tatsächlich vollständig behoben sind. - Berichterstattung und Kommunikation im Problem-Management
Das Ziel dieses Prozesses ist die transparente Kommunikation des Status offener IT-Probleme und der verfügbaren Zwischenlösungen an alle involvierten Service-Management-Prozesse sowie das IT-Infrastrukturmanagement. - Dokumentation von Known Errors
Ein Known Error ist ein IT-Problem, dass temporär mithilfe eines sogenannten Workarounds gefixt ist. Der Fix sorgt dafür, dass das IT-System ohne Störungen ausgeführt wird. Der Fehler ist allerdings nicht behoben und eine langfristige Lösung wird angestrebt, um weitere Probleme zu vermeiden. Jeder Known Error wird um Rahmen des Problem-Managements in einer speziellen Datenbank protokolliert.
RCA-Ursachenanalyse
Die Ursachenanalyse (Root Cause Analysis, RCA) ist ein systematischer Prozess zur Identifizierung der zugrunde liegenden Ursachen von Problemen oder Ereignissen. Ziel ist es, nicht nur die Symptome zu beheben, sondern die eigentliche Ursache zu finden. Die Analyse dient im Endeffekt als Grundlage zur Lösung des Problems und für weitere Problemmanagement-Maßnahmen.
Datenerfassung mithilfe von RCA-Techniken
Nachdem die Auswirkungen eines Vorfalls identifiziert wurden, erfolgt eine umfassende Datenerfassung. Diese beinhaltet Berichte von Nutzern, Fehlermeldungen vom System oder Monitoring-Protokolle. Danach werden mögliche Ursachen für die IT-Probleme gesammelt. Diese werden anschließend mithilfe spezifischer RCA-Techniken analysiert, um die Hauptursache für die Störungen zu finden.
Gängige RCA-Techniken sind:
- 5 Whys
Bei dieser Methode sollen durch das fünfmalige Wiederholen der Frage „Warum“ die Ursachen für Störungen aufgedeckt werden. - Ishikawa-Diagramm
Dieses Diagramm bietet eine visuelle Methode, um Ursache und Wirkung einer Störung nachzuvollziehen. Betrachtet werden dabei auch die Rollen von Mensch, Maschine oder Material. - Fehlerbaumanalyse (FTA)
Die Fehlerbaumanalyse ist eine deduktive Methode zur Analyse von Systemausfällen. Dabei werden logische Verknüpfungen verwendet, um die Wahrscheinlichkeit von Störungen zu berechnen.
Die Analyse endet mit der Entwicklung und Implementierung einer Lösung, die das IT-Problem dauerhaft eliminieren soll.
Beispiel für Problem-Management mittels Ursachenanalyse
Folgendes Beispiel zeigt, wie ein Problem Management Service eine Ursachenanalyse regeln würde:
Ein Webshop ist langsam.
- Problemdefinition
Der Webshop lädt langsam, was zu unzufriedenen Kunden und Umsatzeinbußen führt. - Datenerfassung
Analyse der Serverlogs, Überprüfung der Datenbankperformance, Befragung von Kunden. - Mögliche Ursachen
Überlasteter Server, langsame Datenbankabfragen, fehlerhafter Code, Netzwerkprobleme. - Analyse mit 5 Whys
- Warum ist der Server überlastet? Weil die CPU-Auslastung hoch ist.
- Warum ist die CPU-Auslastung hoch? Weil viele Datenbankabfragen gleichzeitig laufen.
- Warum laufen viele Datenbankabfragen gleichzeitig? Weil eine neue Marketingkampagne viele Besucher anzieht.
- Warum führt die Kampagne zu so vielen Abfragen? Weil die Datenbank nicht für diese Last optimiert ist.
- Lösung
Datenbankoptimierung, Caching-Strategien implementieren.
Divide and Conquer – Herrschen und Teilen
Hierbei handelt es sich um eine Strategie zur Problemlösung, die auch im Incident-Management und im Problem-Management angewandt wird. Dabei wird ein komplexes Problem in viele kleine Probleme zerlegt. Diese sind dann leichter zu handhaben und dienen als Teillösung zur Behebung einer größeren Störung.
Bei dieser Methode wird für jeden Error eine eigene Diagnose durchgeführt. Anschließend wird eine Lösung entwickelt und implementiert. Der Vorgang ist abgeschlossen, wenn für jeden Incident eine Lösung angewandt wurde.
Trial and Error im Problem-Management
Trial and Error (Versuch und Irrtum) ist ein Vorgehen, bei dem verschiedene Lösungsansätze ausprobiert werden, bis eine funktionierende Lösung gefunden ist. Dieses Vorgehen wird meist bei weniger kritischen Incidents oder angewandt, wenn keine bekannten Lösungen vorliegen.
Im Incident-Management kann Trial and Error helfen, schnelle Workarounds zu finden, um den Betrieb im Unternehmen kurzfristig wiederherzustellen. Allerdings birgt diese Methode Risiken, da ungetestete Lösungen neue Probleme verursachen können. Daher sollte diese Methode des Problem-Managements stets dokumentiert und durch gezielte Analysen ergänzt werden.
IT-Notfallmanagement
Während das Problem-Management darauf abzielt, die Ursachen von Incidents zu identifizieren und dauerhaft zu beheben, konzentriert sich das IT-Notfallmanagement auf die Reaktion und Wiederherstellung im Falle eines schwerwiegenden IT-Notfalls.
Was ist ein IT-Notfall per Definition?
Ein IT-Notfall liegt vor, wenn Incidents eine Eskalationsstufe erreichen, die den Geschäftsbetrieb erheblich beeinträchtigt oder gar existenziell bedroht. Dies kann beispielsweise durch Cyberangriffe oder den Ausfall kritischer Infrastruktur verursacht werden.
Wie funktioniert IT-Notfallmanagement?
Das IT-Notfallmanagement definiert Rollen und Verantwortlichkeiten, legt Wiederherstellungsverfahren fest und stellt sicher, dass relevante Daten gesichert sind. Es ergänzt das Incident-Management, indem es über die kurzfristige Störungsbehebung hinausgeht und sich auf die langfristige Wiederherstellung des IT-Betriebs konzentriert. Wurden durch das Problem-Management Schwachstellen identifiziert, fließen diese in die Notfallplanung ein. Durch die Integration des IT-Notfallmanagements in das Problem-Management schaffen Unternehmen eine resiliente IT-Infrastruktur, die auch in Krisensituationen handlungsfähig bleibt.
IT-Probleme: Lösungen aus der Praxis
Im Folgenden sind einige Beispiele aus dem Bereich Problem-Management Best Practices für Unternehmen aufgeführt:
Problem: Regelmäßige Serverausfälle
Ein wichtiger Server fällt immer wieder aus. Das Incident-Management behebt die Ausfälle zwar schnell, aber das Problem kehrt wieder. Problem Management greift ein. Das Team analysiert die Serverprotokolle. Es findet die Ursache: Eine fehlerhafte Softwarekomponente. Es wird ein Known Error erstellt. Ein Workaround wird dokumentiert, bis eine dauerhafte Lösung verfügbar ist. Der Hersteller liefert ein Update. Nach der Installation sind die Serverausfälle Geschichte. Der Service ist stabil.
Häufige Passwortzurücksetzungen
Ein Support-Team erhält täglich viele Anrufe wegen vergessener Passwörter. Dies bindet unnötig Ressourcen. Das Problem-Management analysiert diesen Incident. Es stellt sich heraus: Die Passwortrichtlinien sind zu komplex. Das Team, mit klaren Rollen und Verantwortlichen, schlägt vereinfachte Richtlinien vor. Diese werden im Unternehmen kommuniziert. Die Anzahl der Passwortzurücksetzungen sinkt drastisch. Das Support-Team kann sich wichtigeren Aufgaben widmen. Das Unternehmen nutzt seine Ressourcen effizienter.
Langsame Ladezeiten einer Webanwendung mindern die Kundenzufriedenheit
Benutzer beschweren sich über langsame Ladezeiten einer wichtigen Webanwendung. Das Problem-Management-Team untersucht die Performance. Es identifiziert ineffiziente Datenbankabfragen als Ursache. Das Team entwickelt optimierte Abfragen. Nach der Implementierung laden die Seiten deutlich schneller. Die Benutzer sind zufrieden. Das Unternehmen nutzt die Webanwendung wieder optimal. Dank Problem Management wurde die Performance verbessert.
Diese Beispiele zeigen: Problem-Management geht über die bloße Behebung von Incidents hinaus. Es analysiert die Ursachen, entwickelt nachhaltige Lösungen und verbessert so den Service und die Effizienz im Unternehmen. Es ist ein mächtiges Werkzeug, um IT-Probleme nachhaltig zu lösen und den Nutzen der IT-Services zu maximieren.
Problem Management bei TenMedia
Als Entwickler individueller Software und Datenbanken sind wir von TenMedia nahezu täglich mit einem Incident konfrontiert. Änderungen an den Softwareanwendungen ziehen oft unvorhergesehene Probleme nach sich. Zertifizierungen für Web-Domains laufen aus, Updates müssen installiert oder neue Schnittstellen implementiert werden.
Durch unsere langjährige Erfahrung im IT-Infrastruktur-Management sind wir erfahren im Umgang mit IT-Problemen. Noch besser sogar: In vielen Fällen können wir durch umfassendes Problem-Management verhindern, dass es überhaupt zu Störungen kommt. Neben der Softwareentwicklung bieten wir einen breit gefächerten Service im Bereich Maintenance an. Das schließt die Optimierung und Betreuung von Webseiten und IT-Systemen mit ein. Durch umfassendes Incident-Management und einen 24/7 Notfalldienst garantieren wir die Sicherheit für die Daten unserer Kunden. Neben allgemeinen Wartungsaufgaben übernehmen wir zusätzlich gern Leistungen aus dem Bereich Problem Management.