Das Vorbereiten auf Katastrophen ist ein Thema, das leicht von Systemadministratoren vernachl�ssigt wird — es ist unangenehm und irgendwie kommt doch immer etwas Dringenderes dazwischen. Katastrophenvorbereitung zu vernachl�ssigen ist jedoch das Schlimmste, was ein Systemadministrator tun kann.
Auch wenn einem die eher dramatischen Katastrophen (wie Feuer, �berflutung oder Sturm) zuallererst in den Sinn kommen, k�nnen die geringeren Probleme wie versehentlich durchtrennte Stromleitungen oder ein Rohrbruch genauso starke Auswirkungen haben. Daher ist die Definition einer Katastrophe, die ein Systemadministrator im Hinterkopf behalten sollte, eher die eines ungeplanten Ereignisses, das den Arbeitsfluss in einem Unternehmen unterbricht.
W�hrend es unm�glich ist, alle verschiedenen Katastrophentypen aufzulisten, untersucht dieser Abschnitt die Hauptfaktoren, die Teil einer jeden Katastrophe sind. M�gliche Risiken k�nnen somit nicht aufgrund ihrer Wahrscheinlichkeit, sondern aufgrund der Faktoren, die zur Katastrophe f�hren k�nnen, untersucht werden.
8.1. Arten von Katastrophen
Im allgemeinen gibt es vier verschiedene Faktoren, die eine Katastrophe ausl�sen k�nnen. Diese sind:
Hardware-Ausf�lle
Software-Ausf�lle
Umgebungs-Ausf�lle
Menschliches Versagen
8.1.1. Hardware-Ausf�lle
Hardware-Ausf�lle sind leicht zu verstehen — die Hardware f�llt aus und die Arbeit kommt zum Stillstand. Was schwieriger zu verstehen ist, sind die Gr�nde f�r einen Ausfall und inwieweit die Risiken reduziert werden k�nnen. Hier sind einige Vorschl�ge:
8.1.1.1. Ersatz-Hardware bereithalten
Im einfachsten Fall kann das Risiko durch Hardware-Ausf�lle durch das Bereithalten von Ersatz-Hardware reduziert werden. Diese Ma�nahme erfordert jedoch zwei Voraussetzungen:
Es gibt jemanden vor-Ort, der das Problem diagnostizieren, die ausgefallene Hardware identifizieren und diese austauschen kann.
Ersatz f�r die ausgefallene Hardware steht zur Verf�gung.
Diese Themen werden sp�ter in gr��erem Detail behandelt.
8.1.1.1.1. F�higkeiten
Abh�ngig von Ihrer Erfahrung und der betroffenen Hardware steht die Kompetenz eventuell gar nicht zur Debatte. Wenn Sie jedoch vorher noch nicht mit Hardware gearbeitet haben, sollten Sie sich vielleicht bei einem Anf�ngerkurs zur PC-Reparatur an der Volkshochschule in Ihrem Ort anmelden. Auch wenn solche Kurse Sie nicht unbedingt auf das L�sen von Problemen von gro�en Servern vorbereiten oder gar darauf ausgelegt sind, bieten sie jedoch eine gute Methode, mit den Grundlagen (richtiger Umgang mit Werkzeugen und Komponenten, grundlegende Diagnose etc.) vertraut zu werden.
Tipp
Bevor Sie den Versuch unternehmen, das Problem selbst zu l�sen, sollten Sie sicherstellen, dass die betroffene Hardware:
Keiner Garantie mehr unterliegt
Keinem Service/Wartungsvertrag jeglicher Art unterliegt
Wenn Sie versuchen, Hardware zu reparieren, die noch durch eine Garantie und/oder Servicevertrag abgedeckt ist, verletzen Sie h�chstwahrscheinlich die Vertragsbedingungen und setzen eine weiterf�hrende Abdeckung aufs Spiel.
Es ist jedoch auch mit den geringsten Kenntnissen m�glich, ausgefallene Hardware zu diagnostizieren und zu ersetzen — vorausgesetzt, Sie w�hlen Ihren Bestand an Ersatz-Hardware mit Bedacht.
8.1.1.1.2. Ersatzteilbestand
Die Frage nach dem richtigen Bestand beschreibt die vielschichtige Natur der Wiederherstellung. Wenn Sie �berlegen, von welcher Hardware einen Bestand anzulegen, sollten Sie folgende Dinge im Hinterkopf behalten:
Maximale Ausfallzeit
Die F�higkeiten, die zur Reparatur ben�tigt werden
Budget f�r Ersatzteile
Lagerplatz f�r Ersatzteile
Andere Hardware, f�r welche die gleichen Ersatzteile verwenden werden k�nnen
Jeder dieser Punkte hat Auswirkungen auf die Art der Ersatzteile, die gelagert werden sollen. So reduziert zum Beispiel das Lagern gesamter Systeme die Ausfallzeit erheblich und erfordert nur geringe F�higkeiten f�r die Installation. Diese Vorgehensweise ist jedoch auch wesentlich teurer als ein Ersatz-CPU und RAM-Modul im Schrank. Die Kosten k�nnen sich jedoch lohnen, wenn Ihr Unternehmen mehrere Dutzend identische Server besitzt, die von einem einzigen Ersatzsystem profitieren k�nnen.
Unabh�ngig von der letztendlichen Entscheidung ist die n�chste Frage unvermeidlich und wird als n�chstes behandelt.
8.1.1.1.2.1. Wieviele Ersatzteile lagern?
Die Frage nach den Ersatzteilbest�nden ist auch vielschichtig. Hier sind die Hauptpunkte:
Maximale Ausfallzeit
Voraussichtliche Ausfallrate
Gesch�tzte Zeit der Wiederbeschaffung
Budget f�r Ersatzteile
Lagerplatz f�r Ersatzteile
Andere Hardware, f�r welche die gleichen Ersatzteile verwenden werden k�nnen
F�r Systeme, die eine Ausfallzeit von 2 Tagen verkraften k�nnen und f�r ein Ersatzteil, das einmal im Jahr verwendet wird und innerhalb eines Tages wiederbeschafft werden kann, ist es sinnvoll, nur ein Ersatzteil zu haben (oder gar keines, wenn Sie sich sicher sind, ein Ersatzteil innerhalb von 24 Stunden beschaffen zu k�nnen).
F�r Systeme, die maximal nur einige Minuten ausfallen d�rfen und f�r ein Ersatzteil, das einmal im Monat verwendet wird (und mehrere Wochen in der Wiederbeschaffung braucht) ist es sinnvoll, dass ein halbes Dutzend (oder mehr) Ersatzteile gelagert werden.
8.1.1.1.3. Ersatzteile, die gar keine sind
Wann ist ein Ersatzteil gar kein Ersatzteil? Wenn es allgemein im t�glichen Job verwendet wird, jedoch einem hochrangigeren System als Ersatzteil dient, falls dies notwendig wird. Dieser Ansatz hat einige Vorteile:
Weniger finanzielle Ressourcen f�r "unproduktive" Ersatzteile aufwenden
Die Hardware ist funktionst�chtig
Es gibt jedoch auch einige Nachteile bei dieser Methode:
Die normale Produktion der niederrangigen Aufgabe wird unterbrochen
Es entsteht ein Risiko, sollte die niederrangige Hardware ausfallen (und damit kein Ersatzteil f�r die h�herrangige Hardware lassen)
Vor dem Hintergrund dieser Einschr�nkungen kann das Verwenden eines anderen Produktions-Systems als Ersatz funktionieren. Der Erfolg h�ngt jedoch von der systemspezifischen Last und den Auswirkungen ab, die der Ausfall des Systems auf die Vorg�nge im Datenzentrum hat.
8.1.1.2. Servicevertr�ge
Servicevertr�ge lassen Hardware-Ausf�lle zum Problem anderer werden. Alles, was Sie tun m�ssen, ist zu best�tigen, dass tats�chlich ein Ausfall aufgetreten ist und dies nicht durch einen Softwarefehler hervorgerufen worden ist. Dann t�tigen Sie einen Telefonanruf und jemand kommt vorbei, der die Probleme behebt.
Es scheint so einfach. Wie jedoch mit den meisten Dingen im Leben, steckt mehr dahinter als es den Anschein hat. Hier einige Dinge, die Sie ber�cksichtigen sollten, wenn Sie einen Servicevertrag abschlie�en wollen:
Verf�gungsstunden
Reaktionszeit
Verf�gbarkeit von Ersatzteilen
Verf�gbares Budget
Zu ersetzende Hardware
In den folgenden Abschnitten wird jedes Einzelne dieser Details n�her besprochen.
8.1.1.2.1. Verf�gungsstunden
Es sind je nach Bed�rfnis verschiedene Servicevertr�ge erh�ltlich. Eine der gro�en Variablen zwischen den verschiedenen Vertr�gen sind die Verf�gungsstunden. Wenn Sie nicht in der Lage sind, eine gewisse Summe f�r das Privileg zu bezahlen, k�nnen Sie nicht jederzeit anrufen und erwarten, dass ein Techniker kurze Zeit sp�ter vor der T�r steht.
Abh�ngig von Ihrem Vertrag kann es sein, dass Sie die Wartungsfirma nur an einem bestimmten Tag/zu einer bestimmten Zeit anrufen k�nnen oder auch die Firma eventuell erst nach einer bestimmten Zeit/an einem bestimmten Tag einenTechniker vorbeischickt.
Die meisten Verf�gungsstunden werden in Stunden und Tagen festgelegt, an denen ein Techniker Ihnen im Problemfall zur Verf�gung steht. Einige der h�ufigeren Verf�gungsstunden sind:
Montag bis Freitag, 09:00 bis 17:00 Uhr.
Montag bis Freitag, 12/18/24 Stunden pro Tag (mit gemeinsam vereinbarten Beginn- und Endzeiten)
Montag bis Samstag (oder Montag bis Sonntag), Zeiten wie oben
Wie Sie wahrscheinlich erwarten, erh�hen sich die Vertragskosten mit den Verf�gungsstunden. Im allgemeinen kostet das Erweitern der Deckung Montag bis Freitag weniger als das Hinzuf�gen von Samstags- und Sonntagsdeckung.
Aber auch hier k�nnen Sie die Kosten reduzieren, wenn Sie einige Arbeiten selbst durchf�hren.
8.1.1.2.1.1. Depot-Service
Erfordert Ihre Situation nichts weiter als einen Techniker w�hrend allgemeiner Gesch�ftszeiten und verf�gen Sie �ber ausreichend Erfahrung, so dass Sie feststellen k�nnen, was repariert werden muss, sollten Sie sich den Depot-Service ansehen. Unter vielen Namen, wie Walk-In Service oder Drop-Off Service bekannt, haben einige Hersteller Service-Depots, in denen Techniker die vom Kunden vorbeigebrachte Hardware reparieren.
Der Depot-Service hat den Vorteil, dass er genauso schnell ist wie Sie. Sie m�ssen nicht auf technisches Personal warten. Mitarbeiter in einem Depot kommen nicht zum Kunden, was bedeutet, dass sofort jemand Ihre Hardware reparieren kann, sobald Sie diese zum Depot gebracht haben.
Da der Depot-Service zentral durchgef�hrt wird, stehen die Chancen auf verf�gbare Ersatzteile ziemlich gut. Dies kann Ersatzteillieferungen �ber Nacht oder das Warten auf Ersatzteile, die erst hunderte von Kilometern von einer anderen Gesch�ftsstelle geliefert werden m�ssen, verhindern.
Es gibt jedoch auch einige Nachteile. Der Offensichtlichste ist, dass Sie sich die Servicestunden nicht aussuchen k�nnen — Sie erhalten Service, wenn das Depot offen ist. Ein weiterer Aspekt ist, dass die Techniker zu einer bestimmten Zeit Feierabend machen. F�llt Ihr System also am Freitag um 16:30 Uhr aus und Sie erreichen das Depot um 17:00 Uhr, bleibt die Reparatur bis Montag morgen liegen.
Ein weiterer Nachteil ist, dass der Depot-Service von einem nahegelegenen Depot abh�ngt. Befindet sich Ihr Unternehmen im Stadtbereich, ist dies wahrscheinlich kein gro�es Problem. Sind Sie jedoch eher auf dem Land oder au�erhalb der Stadt angesiedelt, kann das n�chste Depot ziemlich weit weg sein.
Tipp
Wenn Sie sich f�r den Depot-Service entscheiden, denken Sie bitte einen Moment dar�ber nach, wie die Hardware zum Depot geliefert werden soll. Haben Sie einen Firmenwagen oder Ihr eigenes Auto? Falls Sie Ihren eigenen Wagen verwenden, haben Sie gen�gend Platz und Kapazit�ten? Wie sieht es mit der Versicherung aus? Werden mehr als eine Person f�r das Auf- und Entladen der Hardware ben�tigt?
Auch wenn diese Fragen relativ einfach erscheinen, sollten diese angesprochen werden, bevor die Entscheidung f�r einen Depot-Service gef�llt wird.
8.1.1.2.2. Reaktionszeit
Zus�tzlich zu den Verf�gungsstunden geben viele Servicevereinbarungen eine bestimmte Reaktionszeit vor. Mit anderen Worten: Wie lange dauert es, bis Sie nach Ihrer Serviceanfrage einen Techniker zur Verf�gung haben? Wie Sie sich denken k�nnen, resultiert eine schnellere Reaktionszeit in einem teureren Vertrag.
Die zur Verf�gung stehenden Reaktionszeiten unterliegen gewissen Einschr�nkungen. So hat zum Beispiel die Anfahrtszeit vom Hersteller zu Ihrem Unternehmen einen gro�en Einfluss auf die m�glichen Reaktionszeiten[1]. Reaktionszeiten um die vier Stunden werden allgemein als schnell betrachtet. Langsamere Reaktionszeiten reichen von acht Stunden (was effektiv gesehen zum Service am "n�chsten Tag" innerhalb einer Standard-Gesch�ftsvereinbarung wird), bis zu 24 Stunden. Wie bei jeden anderen Aspekt der Vereinbarung sind diese Zeiten verhandelbar — f�r die richtige Summe.
Anmerkung
Auch wenn es nicht h�ufig vorkommt, sollten Sie sich doch bewusst sein, dass einige Servicevereinbarungen mit Reaktionszeitregelungen den Service eines Herstellers vollkommen auslasten k�nnen. Es ist nicht ganz unbekannt, dass vollkommen ausgelastete Unternehmen jemanden — irgendjemanden — zu einem Serviceanruf mit kurzer Reaktionszeit schicken, nur um die Reaktionsklausel einzuhalten. Diese Person diagnostiziert dann angeblich das Problem, und ruft dann das "Hauptquartier" an, damit jemand "das richtige Ersatzteil" bringt.
Tats�chlich wird jedoch nur auf die Person gewartet, die dann wirklich in der Lage ist, das Problem zu beheben.
W�hrend dies unter besonderen Umst�nden verst�ndlich ist (wenn zum Beispiel ein Stromausfall Systeme im gesamten Servicebereich lahmgelegt haben), sollten Sie, falls dies Verhalten �fter auftritt, den Servicemanager benachrichtigen und eine Erkl�rung verlangen.
Sind Ihre Anspr�che an die Reaktionszeit sehr hoch (und Sie verf�gen �ber das entsprechend hohe Budget), gibt es einen Ansatz, bei dem Sie die Reaktionszeiten noch weiter senken k�nnen — auf Null.
8.1.1.2.2.1. Gar keine Reaktionszeit — ein Techniker vor-Ort
In angemessener Situation (Sie sind einer der gr��ten Kunden in der Gegend), ausreichend Bedarf (jegliche Downtime ist inakzeptabel) und ausreichenden finanziellen Ressourcen (wenn Sie nach dem Preis fragen m�ssen, k�nnen Sie sich es wahrscheinlich nicht leisten), sind Sie eventuell ein Kandidat f�r einen Vollzeit-Techniker vor-Ort. Die Vorteile eines st�ndig verf�gbaren Technikers sind offensichtlich:
Sofortige Reaktion auf jegliche Probleme
Eine proaktive Herangehensweise an die Systemwartung
Wie Sie sich denken k�nnen, kann diese Option sehr kostspielig werden, insbesondere, wenn Sie einen Techniker 24/7 ben�tigen. Wenn dies jedoch f�r Ihr Unternehmen angemessen ist, sollten Sie eine Reihe von Punkten im Hinterkopf behalten, um den gr��ten Nutzen hieraus zu ziehen.
Als erstes ben�tigen Techniker vor-Ort viele der Ressourcen eines normalen Mitarbeiters wie zum Beispiel einen Arbeitsplatz, Telefon, Zugangskarten und/oder Schl�ssel und so weiter.
Vor-Ort Techniker sind nur dann wirklich von Vorteil, wenn die richtigen Ersatzteile zur Verf�gung stehen. Stellen Sie daher eine sichere Lagerst�tte f�r Ersatzteile zur Verf�gung. Zus�tzlich dazu sollte der Techniker einen angemessenen Lagerbestand der Ersatzteile f�r Ihre Konfiguration f�hren und sicherstellen, dass diese Teile nicht regelm��ig von anderen Technikern f�r eigene Zwecke "ausgeschlachtet" werden.
8.1.1.2.3. Teile-Verf�gbarkeit
Offensichtlich spielt die Verf�gbarkeit von Ersatzteilen eine gro�e Rolle bei der Eingrenzung des Risikos f�r Hardware-Ausf�lle. Im Kontext einer Servicevereinbarung nimmt die Verf�gbarkeit der Ersatzteile eine andere Dimension ein, da diese nicht nur auf Ihr Unternehmen zutrifft, sondern auf alle Kunden im Einzugsbereich des Herstellers, die diese Teile eventuell auch ben�tigen. Ein anderes Unternehmen, das vielleicht eine gr��ere Menge Hardware von dem betreffenden Hersteller abgenommen hat als Ihr Unternehmen wird u.U. auch bevorzugt behandelt, wenn es um Ersatzteile (oder Techniker) geht.
Leider kann in diesem Fall nicht getan werden, abgesehen von einem Gespr�ch mit dem Service-Manager.
8.1.1.2.4. Budget
Wie bereits erw�hnt variieren Servicevereinbarungen im Preis, je nach Art von bereitgestelltem Service. Denken Sie daran, dass die Kosten f�r einen Wartungsvertrag ein periodisch wiederkehrender Aufwand ist; jedes Mal, wenn der Vertrag ausl�uft, m�ssen Sie einen neuen Vertrag aushandeln und neuerdings die Summe bezahlen.
8.1.1.2.5. Abzudeckende Hardware
Hier ist ein Bereich, f�r den Sie die Kosten so gering als m�glich halten k�nnen. Stellen Sie sich vor, Sie haben eine Servicevereinbarung mit einem '24 Stunden rund um die Uhr'-Techniker vor-Ort , Ersatzteile vor-Ort — alles was das Herz begehrt. Jedes St�ck Hardware, das Sie von diesem Hersteller erworben haben, wird abgedeckt, selbst der PC der Sekret�rin, auf dem nichtkritische Aufgaben erf�llt werden.
Muss f�r diesen PC wirklich jemand 24/7 vor-Ort zur Verf�gung stehen? Die Sekret�rin arbeitet t�glich von 9:00 Uhr bis 17:00 Uhr Es ist daher relativ unwahrscheinlich, dass:
Der PC zwischen 17:00 Uhr und 9:00 Uhr genutzt wird (oder am Wochenende)
Dass ein Ausfall au�erhalb der B�rozeiten bemerkt wird (zwischen 9:00 Uhr und 17:00 Uhr)
Es ist daher eine Geldverschwendung, wenn man daf�r zahlt, dass dieser PC an einem Samstag mitten in der Nacht gewartet werden kann.
Sie sollten die Service-Vereinbarung aufteilen, sodass nicht-kritische Hardware separat von kritischer Hardware aufgef�hrt wird. Auf diese Weise k�nnen Sie die Kosten so gering als m�glich halten.
Anmerkung
Wenn Sie �ber 20 identische Server verf�gen, die f�r Ihr Unternehmen kritisch sind, sind Sie vielleicht versucht, eine hochrangige Servicevereinbarung f�r nur einen oder zwei Server abzuschlie�en und den Rest mit einer kosteng�nstigeren Vereinbarung abzudecken. Wenn dann irgendeiner der Server ausf�llt, behaupten Sie einfach, dass dieser derjenige mit dem High-Level Service war.
Sehen Sie davon lieber ab. Es ist nicht nur unehrlich, sondern behalten die meisten Hersteller auch einen guten �berblick �ber Seriennummern. Selbst wenn Sie einen Weg finden, solche Pr�fungen zu umgehen, werden Sie langfristig wesentlich mehr Geld ausgeben, sollten Sie dabei erwischt werden, als wenn Sie ehrlich f�r die Services, die Sie ben�tigen, bezahlen.
8.1.2. Software-Ausf�lle
Software-Ausf�lle k�nnen in langer Downtime resultieren. So haben zum Beispiel die Besitzer einer bestimmten Marke von Computersystemen, die f�r ihre Hochverf�gbarkeitsfeatures bekannt sind, dies an eigenem Leibe erfahren. Ein Fehler im Time-Handling-Code des Betriebssystems resultierte darin, dass die Systeme aller Kunden zu einem bestimmten Zeitpunkt jeden Tag abst�rzten. W�hrend diese Situation ein eher seltenes Beispiel von Softwarefehlern in Aktion ist, sind andere Software-bezogene Ausf�lle vielleicht weniger dramatisch, jedoch genauso zerst�rend.
Software-Ausf�lle k�nnen in einem der folgenden Bereiche zuschlagen:
Betriebssystem
Applikationen
Jede Ausfallart hat ihren eigenen speziellen Effekt und wird in den folgenden Abschnitten im Detail dargestellt.
8.1.2.1. Ausf�lle des Betriebssystems
Bei dieser Ausfallart ist das Betriebssystem f�r die Unterbrechung des Services verantwortlich. Ausf�lle des Betriebssystems entstehen aus zwei Bereichen:
Abst�rze
Aufh�ngen
Das Wichtigste, was Sie �ber Ausf�lle des Betriebssystems wissen sollten, ist, dass alles, was zum Zeitpunkt des Ausfalls l�uft, mit abst�rzt. Als solches k�nnen Systemausf�lle extreme Auswirkungen auf die Produktion haben.
8.1.2.1.1. Abst�rze
Abst�rze treten dann auf, wenn das Betriebssystem einen Fehlerzustand erleidet, von dem es sich nicht erholt. Die Gr�nde f�r Abst�rze reichen von der Unf�higkeit, ein tieferliegendes Hardwareproblem zu l�sen bis hin zu Bugs im Kernel-Code, die das Betriebssystem kompromittieren. St�rzt ein Betriebssystem ab, so muss das System neu gebootet werden, um mit der Produktion fortfahren zu k�nnen.
8.1.2.1.2. Aufh�ngen
Stoppt das Betriebssystem das Bearbeiten von System-Events, kommt das gesamte System zum Stillstand. Dies ist als Aufh�ngen bekannt. Dies kann durch Deadlocks (zwei Verbraucher von Ressourcen, die sich im Disput um die Ressource des jeweils anderen befinden) und Livelocks (zwei oder mehr Prozesse reagieren auf die Aktivit�ten des jeweils anderen, produzieren aber dabei nichts Sinnvolles) entstehen. Das Endresultat ist jedenfalls das Gleiche — ein v�lliger Produktivit�tsausfall.
8.1.2.2. Ausf�lle von Applikationen
Im Gegensatz zu Ausf�llen des Betriebssystems sind Applikationsausf�lle etwas begrenzter im angerichteten Schaden. Abh�ngig von der jeweiligen Applikation betrifft ein Applikationsausfall eventuell nur eine Person. Ist jedoch eine Server-Applikation davon betroffen, so sind die Konsequenzen eines Ausfalls wesentlich weitreichender.
Applikationsausf�lle sowie auch Ausf�lle des Betriebsystems k�nnen durch Aufh�ngen oder Abst�rzen verursacht werden. Der einzige Unterschied ist, dass hier nur die Applikation sich aufh�ngt oder abst�rzt.
8.1.2.3. Hilfe — Software Support
Genauso wie Hardware-Hersteller Support f�r ihre Produkte liefern, bieten auch viele Software-Hersteller ihren Kunden Support-Pakete an. Abgesehen von den offensichtlichen Unterschieden (es wird keine Ersatz-Hardware ben�tigt und die Arbeit kann von Support-Personal �ber das Telefon aus durchgef�hrt werden), �hneln Software-Supportvertr�ge denen von Hardware erheblich.
Der jeweilige Support-Level ist von Hersteller zu Hersteller verschieden. Im folgenden finden Sie die h�ufigeren Support-Strategien:
Dokumentation
Selbsthilfe
Web- oder E-Mail-Support
Telefon-Support
Vor-Ort-Support
Jede Art von Support wird in den folgenden Abschnitten genauer beschrieben.
8.1.2.3.1. Dokumentation
Wenn auch meistens �bersehen, kann eine Software-Dokumentation als 1-A-Supporttool dienen. Ob Online oder gedruckt, Dokumentation enth�lt h�ufig die f�r eine Probleml�sung wichtigen Informationen.
8.1.2.3.2. Selbsthilfe
Selbsthilfe bedeutet, dass der Kunde Online-Ressourcen f�r die Probleml�sung zur Hilfe nimmt. H�ufig werden diese Online-Ressourcen als web-basierte FAQ (h�ufig gestellte Fragen) oder Wissensdatenbanken zur Verf�gung gestellt.
FAQs haben meistens nur geringe oder gar keine Auswahlm�glichkeiten, so dass der Kunde sich von Frage zu Frage klicken muss, in der Hoffnung, eine L�sung zu seinem Problem irgendwo zu finden. Knowledgebases (Wissensdatenbanken) sind h�ufig etwas weiter entwickelt und bieten eine Suche nach Begriffen. Knowledgebases k�nnen in einigen F�llen auch sehr umfangreich sein, was sie zu einem sehr guten Tool f�r die Probleml�sung machen.
8.1.2.3.3. Web- oder E-Mail-Support
Auf vielen Selbsthilfe-Webseiten finden sich auch web-basierte Formulare oder E-Mail-Adressen, �ber die Sie Ihre Fragen an Mitarbeiter des Supports senden k�nnen. W�hrend dies auf den ersten Blick als Verbesserung einer guten Selbsthilfe-Webseite erscheint, h�ngt es in Wirklichkeit erheblich von denjenigen ab, die die E-Mails beantworten.
Sind die Support-Mitarbeiter �berlastet, erweist es sich als schwierig, die n�tigen Informationen zu bekommen, da das Hauptaugenmerk auf einer schnellen Beantwortung jeder E-Mail liegt. Der Grund daf�r ist, dass fast das gesamte Support-Personal auf Basis der gel�sten Probleme evaluiert wird. Eine Eskalation von Problemen ist auch schwierig, da innerhalb einer E-Mail wenig f�r eine angemessene und hilfreiche Antwort getan werden kann — insbesondere, wenn die Person, die Ihre E-Mail liest, unter Zeitdruck steht.
Den besten Service erhalten Sie, wenn Sie in Ihrer E-Mail alle Fragen ansprechen, die ein Support-Techniker stellen w�rde. Zum Beispiel:
Beschreiben Sie klar und deutlich das Problem
Geben Sie alle wichtigen Versionsnummern an
Beschreiben Sie, was Sie bereits versucht haben, um das Problem zu l�sen (Anwenden der neuesten Patches, Reboot mit Minimalkonfiguration etc.)
In dem Sie dem Support-Techniker diese Informationen geben, haben Sie eine h�here Chance, den ben�tigten Support zu erhalten.
8.1.2.3.4. Telefon-Support
Wie der Name schon sagt, beinhaltet der Telefon-Support die telefonische Unterst�tzung eines Technikers. Diese Art von Support ist dem Hardware-Support am �hnlichsten. Es gibt verschiedene Support-Level (mit verschiedenen Abdeckungsstunden, Reaktionszeiten etc.).
8.1.2.3.5. Vor-Ort-Support
Diese auch als On-Site Consulting bekannte Art ist der teuerste Software-Support. Gew�hnlich wird dies nur f�r das L�sen ganz bestimmter Probleme, wie einer erstmaligen Softwareinstallation und Konfiguration, f�r bedeutende Upgrades, usw. reserviert. Wie bereits erw�hnt, ist dies der teuerste Support.
Es gibt jedoch Vorf�lle, wo der vor-Ort-Support sinnvoll ist. Denken Sie zum Beispiel an eine kleinere Firma mit nur einem Systemadministrator. Die Firma will nun ihren ersten Datenbank-Server einsetzen, aber der Einsatz (und die Verwaltung) ist nicht umfassend genug, um einen eigenen Datenbank-Administrator zu rechtfertigen. In dieser Situation kann es durchaus g�nstiger sein, einen Experten des Datenbankherstellers in die Firma zu holen, der den anf�nglichen Einsatz (und je nach Bedarf zu einem sp�teren Zeitpunkt) regelt, als den Systemadministrator im Umgang mit der Software zu schulen.
8.1.3. Ausf�lle der Umgebung
Auch wenn die Hardware ordnungsgem�� l�uft und die Software richtig konfiguriert ist und ordnungsgem�� funktioniert, k�nnen trotzdem noch Probleme auftreten. Die h�ufigsten Probleme, die au�erhalb des Systems selbst auftreten, haben mit der physikalischen Umgebung, in der sich das System befindet, zu tun.
Umgebungsprobleme k�nnen in vier Hauptkategorien aufgeteilt werden:
Intaktheit des Geb�udes
Elektrizit�t
Klimaanlage
Das Wetter und die Au�enwelt
8.1.3.1. Geb�udeintegrit�t
Angesichts einer derart einfachen Grundstruktur, erf�llt ein Geb�ude eine enorme Anzahl an Funktionen. Es bietet Schutz vor den Naturgewalten. Es bietet das richtige Mikro-Klima f�r alles, das sich im Geb�ude befindet. Es besitzt Mechanismen f�r die Bereitstellung von Strom und Schutz vor Feuer, Diebstahl und Vandalismus. Daher ist es auch nicht verwunderlich, dass einiges in Bezug auf Geb�ude schiefgehen kann. Hier sind einige Dinge:
Das Dach kann undicht werden und somit Wasser in Datenzentren eindringen.
Verschiedene Systeme im Geb�ude (z.B. Wasser, Abwasser oder Luft) k�nnen ausfallen und das Geb�ude unbewohnbar machen.
Fu�b�den k�nnen evtl. nicht die Last Ihrer Einrichtung im Datenzentrum tragen.
Eine lebendige Vorstellungskraft ist wichtig, wenn es darum geht, was bei Geb�uden alles schiefgehen kann. Die obige Liste ist ist nur der Anfang, um Sie in die richtige Richtung zu weisen.
8.1.3.2. Elektrizit�t
Da Strom die Lebensquelle f�r jedes Computersystem ist, sind Strom-bezogene Angelegenheiten von h�chster Bedeutung f�r den Systemadministrator. Es sind mehrere Aspekte zu betrachten, welche in den folgenden Abschnitten eingehender beschrieben werden.
8.1.3.2.1. Die Sicherheit Ihrer Elektrizit�t.
Als erstes muss festgestellt werden, wie sicher Ihre regul�re Stromversorgung ist. Wie wahrscheinlich jedes andere Datencenter auch, erhalten Sie Ihren Strom von einem �rtlichen Energieversorgungsunternehmen �ber Elektrizit�tsleitungen. Hierdurch sind Sie in der Sicherung Ihrer prim�ren Stromversorgung eingeschr�nkt.
Tipp
Unternehmen, die sich im Grenzbereich eines Energieunternehmens befinden, k�nnen unter Umst�nden einen Anschluss an zwei verschiedene Energienetze aushandeln:
Das eine, das Ihren Bezirk speist
Das andere vom benachbarten energieerzeugenden Unternehmen
Die Kosten einer Stromleitung von einem benachbarten Netz sind betr�chtlich. Daher kommt diese Option wahrscheinlich nur f�r gr��ere Unternehmen in Frage. Diese Unternehmen werden jedoch feststellen, dass die Vorteile durch zus�tzliche Stromversorgung die Kosten vielfach �berwiegen.
Die Hauptpunkte, die es zu pr�fen gilt, sind die Wege, auf die der Strom auf das Gel�nde und in die Geb�ude Ihrer Firma kommt. Sind die Elektriz�tsleitungen �ber oder unter der Erde? �berirdische Leitungen sind anf�llig f�r:
Sch�den durch extremes Wetter (Eis, Wind, Blitzschlag)
Verkehrsunf�lle, bei denen die Masten und/oder Transformatoren besch�digen
Tiere, die zur falschen Zeit am falschen Ort sind und die Leitungen kurzschlie�en
Unterirdische Leitungen haben jedoch auch ganz besondere Probleme:
Sch�den durch Bauarbeiter, die am falschen Ort graben
�berflutungen
Blitzschlag (jedoch weniger anf�llig als �berirdische Leitungen)
Verfolgen Sie nun die Leitungen bis zu Ihrem Geb�ude. Werden diese erst �ber einen externen Transformator geleitet? Ist dieser Transformator vor Fahrzeugen oder umfallenden B�umen gesch�tzt? Sind alle offenliegenden Schalter vor unbefugter Benutzung gesch�tzt?
K�nnen diese Leitungen (oder Kabelf�hrungen) innerhalb des Geb�udes anderen Problemen ausgesetzt sein? K�nnte zum Beispiel ein Wasserrohrbruch den Maschinenraum �berfluten?
Verfolgen Sie die Leitung ins Datencenter. Gibt es irgendetwas, das unvorhergesehen die Stromversorgung unterbrechen k�nnte? Teilt sich zum Beispiel das Datencenter einen oder mehrere Stromkreise mit Nicht-Datencenter-Verbrauchern? Ist dies der Fall, kann eines Tages vielleicht die externe Last den �berlastungsschutz des Schaltkreises ausl�sen und im Zuge dessen das Datenzentrum ohne Strom belassen.
8.1.3.2.2. Stromqualit�t
Das alleinige Sicherstellen, dass die Energiequellen f�r das Datenzentrum sicher sind, reicht leider nicht aus. Sie m�ssen auch an die Qualit�t der Energie, die zum Datencenter geliefert wird, denken. Sie sollten mehrere Faktoren in Betracht ziehen:
Spannung
Die hereinkommende Spannung muss konstant sein und darf keine negativen Spannungsspitzen (auch Spannungsabfall genannt) oder positiven Spannungsspitzen (auch bekannt als Stromspitzen) aufweisen.
Wellenform
Es muss eine saubere Sinuswelle mit einer nur minimalen THD (Total Harmonic Distortion - Harmonische Verzerrung) sein.
Frequenz
Die Frequenz muss stabil sein (die meisten L�nder verwenden eine Frequenz von 50Hz oder 60 Hz).
St�rungen
Es d�rfen keine RFI (Radio Frequency Interference - Funkst�rungen) oder EM� (Elektormagnetische �berlagerungen) vorkommen.
Stromst�rke
Es muss ein bestimmter Nennstrom, der f�r den Betrieb des Datencenters ausreicht, geliefert werden.
Der direkt vom Energieversorgunsgunternehmen gelieferte Strom entspricht normalerweise nicht dem f�r ein Datenzentrum n�tigen Standard. Es wird daher ein gewisser Grad an Stromwandlung ben�tigt. Es gibt hierf�r verschiedene Methoden:
�berspannungsschutz
Ein �berspannungsschutz tut genau das, was der Name bereits sagt — �berspannungen aus der Stromversorgung herausfiltern. Die meisten �berspannungsschutz-Einrichtungen tun nichts anderes und die Ausr�stung bleibt anf�llig f�r andere Energie-bezogene Probleme.
Power-Conditioner
Power-Conditioner folgen einem eher ganzheitlicheren Ansatz. Abh�ngig von der technischen Raffinesse der Einheit k�nnen Stromanlagen die meisten oben beschriebenen Probleme l�sen.
Motor-Generator-S�tze
Ein Motor-Generator-Satz ist im wesentlichen ein gro�er Elektromotor, der von Ihrer normalen Stromversorgung angetrieben wird. Der Motor ist mit einem Schwungrad verbunden, das wiederum mit einem Generator verbunden ist. Der Motor treibt das Schwungrad und den Generator an, der dann gen�gend Strom f�r das Datencenter erzeugt. Auf diese Weise ist das Datencenter elektrisch gesehen vom externen Strom isoliert, was wiederum die meisten Strom-bezogenen Probleme eliminiert. Das Schwungrad liefert auch eine Stromversorgung durch kurze Stromausf�lle hinweg, da es mehrere Sekunden dauert, bis das Schwungrad so langsam wird, dass kein Strom mehr erzeugt werden kann.
Unterbrechungsfreie Stromversorgung
Einige Typen unterbrechungsfreier Stromversorgung (allgemein auch als UPS bekannt) enthalten fast alle (wenn nicht alle) der Schutzeigenschaften eines Power Conditioners[2].
Mit den letzten beiden Technologien gehen wir zu einem Thema �ber, an das die meisten denken, wenn es um Strom geht — Backup-Strom. Im n�chsten Abschnitt werden verschiedene Ans�tze f�r Backup-Strom beschrieben.
8.1.3.2.3. Backup-Strom
Ein Begriff, den wohl die meisten schon geh�rt haben, ist Stromausfall. Ein Stromausfall oder Blackout ist der vollst�ndige Verlust elektrischer Stromversorgung und kann von Sekundenbruchteilen bis hin zu Wochen dauern.
Dadurch, dass die Dauer von Stromausf�llen so verschieden ist, ist es wichtig, Backup-Strom mittels verschiedender Technologien f�r verschieden lange Ausf�lle bereitzustellen.
Tipp
Die h�ufigsten Stromausf�lle dauern im Durchschnitt nur wenige Sekunden. L�ngere Ausf�lle sind wesentlich seltener. Konzentrieren Sie sich deshalb als erstes auf Stromausf�lle mit einer Dauer von wenigen Minuten und arbeiten Sie danach Methoden f�r Ausf�lle l�ngere Dauer aus.
8.1.3.2.3.1. Energieversorgung f�r die n�chsten paar Sekunden
Da die meisten Stromausf�lle nur ein paar Sekunden dauern, muss Ihre Backup-L�sung zwei Hauptcharakteristika aufweisen:
Sehr kurze Umschaltzeit zum Backup-Strom (bekannt als Transferzeit)
Eine Laufzeit (die Zeit, f�r die Backup-Strom geliefert wird) gemessen in Sekunden bis Minuten
Die Backup-Strom L�sungen, die diesen Charakteristika entsprechen, sind Motor-Generator-S�tze und USVs. Das Schwungrad im Motor-Generator-Satz erm�glicht dem Generator, kontinuierlich Strom zu produzieren, um einen Stromausfall von etwa einer Sekunde zu �berbr�cken. Motor-Generator-S�tze sind relativ sperrig und kostspielig und stellen somit eher eine L�sung f�r mittelgro�e und gr��ere Datencenter dar.
Eine andere Technologie — USV genannt — kann jedoch in den Situationen einspringen, in denen ein Motor-Generator-Satz zu kostspielig wird. Es kann auch l�ngere Ausf�lle �berbr�cken.
8.1.3.2.3.2. Strom f�r die n�chsten paar Minuten bereitstellen
USVs sind in verschiedenen Gr��en erh�ltlich — von kleinen f�r den Betrieb eines einzelnen PCs f�r f�nf Minuten oder auch f�r die Stromversorgung eines gesamten Datencenters f�r eine Stunde oder l�nger.
USVs bestehen aus den folgenden Komponenten:
Ein Transfer-Schalter f�r das Umschalten der prim�ren Stromversorgung zur Backup-Stromversorgung.
Eine Batterie f�r Backup-Energie
EinWechselrichter, der den Gleichstrom der Batterie in den Wechselstrom, der von der Datencenter-Hardware ben�tigt wird, umwandelt.
Abgesehen von der Gr��e und Batteriekapazit�t der Einheit werden USVs in zwei Grundausstattungen geliefert:
Eine Offline-USV verwendet Wechselrichter, um Strom nur dann zu erzeugen, wenn die Prim�r-Stromquelle ausf�llt.
Eine Online-USV verwendet Wechselrichter, um st�ndig Strom zu erzeugen und speist nur dann den Wechselrichter durch ihre Batterie, wenn die Prim�r-Stromquelle ausf�llt.
Jeder Typ hat seine Vor- und Nachteile. Eine Offline-USV ist generell etwas kosteng�nstiger, da der Wechselrichter nicht f�r Vollzeitbetrieb ausgelegt sein muss. Probleme mit dem Wechselrichter werden jedoch meistens nicht rechtzeitig erkannt (sp�testens beim n�chsten Stromausfall).
Online-USVs sind im allgemeinen besser bei der Bereitstellung von sauberem Strom, da eine Online-USV Vollzeit Strom f�r Sie erzeugt.
Egal welche Art USV Sie einsetzen, die USV muss auf die zu erwartende Last angepasst werden so dass die USV gen�gend Kapazit�t zur Elektrizit�tserzeugung mit ben�tigtem Strom und Spannung hat), und es muss festgestellt werden, wie lange das Datencenter im Batteriebetrieb laufen soll.
Dazu m�ssen Sie als erstes die Lasten festlegen, die von der USV gespeist werden sollen. Bestimmen Sie f�r jede Hardwarekomponente, wieviel Strom ben�tigt wird (steht meistens auf einem Schild in der N�he des Stromkabels). Notieren Sie die Spannung (Volt), Leistung (Watt) und/oder Strom (Ampere). Sobald Sie alle diese Daten f�r die Hardware haben, m�ssen Sie diese in VA (Volt-Ampere) umwandeln. Haben Sie eine Zahl in Watt, k�nnen Sie diese als VA nehmen. Haben Sie Ampere, m�ssen Sie diese mit Volt multiplizieren, um die VA zu erhalten. Wenn Sie nun die VA-Werte addieren, erhalten Sie die VA-Leistung, die f�r das UVS ben�tigt wird.
Anmerkung
Genaugenommen ist dieser Ansatz f�r die Berechnung des VA nicht richtig; f�r den echten VA-Wert m�ssten Sie den Leistungsfaktor f�r jede Einheit kennen, und diese Information wird selten wenn �berhaupt bereitgestellt. Die auf dem hier beschriebenen Wege berechneten Werte reflektieren den schlimmsten anzunehmenden Wert und l�sst somit etwas Luft f�r etwas erh�hte Sicherheit.
Das Bestimmen der Laufzeit ist eher eine gesch�ftliche als eine technische Frage — gegen welche Art Ausf�lle wollen Sie sich sch�tzen und wieviel wollen Sie daf�r ausgeben? Die meisten w�hlen Laufzeiten von weniger als einer Stunde oder maximal zwei Stunden, da danach Batterieenergie sehr kostspielig wird.
8.1.3.2.3.3. Bereitstellen von Energie f�r die n�chsten paar Stunden (und dar�ber hinaus)
Sobald Stromausf�lle in Tagen gemessen werden m�ssen, wird die Auswahl noch wesentlich teurer. Technologien, die langfristige Stromausf�lle �berbr�cken k�nnen, sind auf Generatoren, die von einem Motor angetrieben werden, beschr�nkt — haupts�chlich Diesel- und Gasturbinen.
Anmerkung
Bitte beachten Sie, dass motorgetriebene Generatoren regelm��iges Auff�llen des Treibstoffs ben�tigen. Sie sollten die Verbrennungsrate Ihres Generators bei Maximalbelastung kennen und entsprechend Kraftstofff�llungen arrangieren.
An dieser Stelle sind Ihre Optionen offen, vorausgesetzt, Ihr Unternehmen hat ausreichend finanzielle Ressourcen. Dies ist auch ein Bereich f�r den Experten die beste L�sung f�r Ihr Unternehmen festlegen k�nnen. Es haben nur ganz wenige Systemadministratoren das spezielle Wissen, das n�tig ist, um die Beschaffung und den Einsatz dieser Art von Stromerzeugungssystemen zu planen.
Tipp
Tragbare Generatoren aller Gr��en k�nnen gemietet werden und machen es so m�glich, die Vorteile eines Generators zu genie�en, ohne die Summen f�r eine Anschaffung dieser Aufbringen zu m�ssen. Behalten Sie jedoch im Hinterkopf, dass wenn eine Katastrophe in Ihrer allgemeinen Umgebung eintritt, gemietete Generatoren rar und teuer werden.
8.1.3.2.4. Planung f�r langfristige Stromausf�lle
W�hrend ein 5-min�tiger Stromausfall nicht mehr als unangenehm f�r das Personal in einem dunklen B�ro ist, wie sieht es dagegen mit einem Ausfall �ber eine Stunde aus? 5 Stunden? Ein Tag? Eine Woche?
Tatsache ist, dass irgendwann, auch wenn das Datencenter normal funktioniert, ein l�ngerdauernder Ausfall Ihr Unternehmen treffen wird. Betrachten Sie die folgenden Punkte:
Was passiert, wenn es keinen Strom gibt, um das Klima im Datencenter aufrecht zu erhalten?
Was passiert, wenn es keinen Strom gibt, um das Klima im gesamten Geb�ude aufrecht zu erhalten?
Was passiert, wenn es keinen Strom gibt, um Workstations, die Telefonanlage oder das Licht zu betreiben?
Der Punkt hier ist, dass Ihr Unternehmen festlegen muss, zu welchem Zeitpunkt ein Stromausfall einfach hingenommen werden muss. Ist dies keine Option, sollte Ihr Unternehmen �berlegen, wie es vollkommen unabh�ngig f�r l�ngere Zeitr�ume funktionieren kann, was bedeutet, dass sehr gro�e Generatoren zur Versorgung des gesamten Geb�udes ben�tigt werden.
Nat�rlich kann diese Planung nicht in einem totalen Vakuum stattfinden. Es ist ziemlich wahrscheinlich, dass was auch immer den l�ngeren Stromausfall verursacht, auch die Welt um Sie herum betrifft und dieser Umstand auch Ihr Unternehmen beeinflusst; auch wenn unbegrenzter Ersatzstrom vorhanden ist.
8.1.3.3. Heizung, L�ftung und Klimaanlage
Die Heizungs-, L�ftungs- und Klimatisierungssysteme (HLK), die in modernen B�rogeb�uden eingesetzt werden, sind unwahrscheinlich weit entwickelt. H�ufig durch Computer gesteuert sind HLK-Systeme wichtig f�r das Bereitstellen eines angenehmen Arbeitsklimas.
Datencenter haben h�ufig zus�tzliche L�ftungsanlagen, haupts�chlich um die von vielen Computern und anderen Ger�ten erzeugte W�rme abzuleiten. Ausf�lle in einem HLK-System k�nnen die Fortsetzung des Betriebs eines Datencenters verhindern. Durch die Komplexit�t und elektro-mechanische Natur sind die M�glichkeiten eines Ausfalls reichhaltig und divers. Hier ein paar Beispiele:
Die L�ftungsanlagen (im wesentlichen gro�e Ventilatoren, angetrieben von gro�en Elektro-Motoren) k�nnen durch eine elektrische �berlastung, Lagerausfall, Keilriemenriss etc. ausfallen
Die K�hleinheiten (auch Chillers genannt) k�nnen ihr K�hlmittel durch Lecks verlieren oder die Motoren oder Kompressoren k�nnen klemmen.
HLK-Reparaturen und Wartung ist ein spezialisierter Bereich — ein Bereich, den der normale Systemadministrator Experten �berlassen sollte. Ein Systemadministrator sollte zumindest jedoch sicherstellen, dass die HLK-Ausr�stung t�glich (oder mehrmals t�glich) auf normalen Betrieb gepr�ft und nach den Richtlinien des Herstellers gewartet wird.
8.1.3.4. Das Wetter und die Au�enwelt
Es gibt einige Arten von Wetter, die einem Systemadministrator Probleme bereiten k�nnen.
Schnee und Eis k�nnen Mitarbeiter des Datencenters davon abhalten, zur Arbeit zu kommen und Kondensatoren der Kimaanlagen verstopfen, was erh�hte Temperaturen im Datencenter zur Folge hat. Und dann wom�glich niemand dort ist, der etwas dagegen unternehmen kann.
St�rme k�nnen Strom und Kommunikation unterbrechen, und sehr starke St�rme das Geb�ude selbst besch�digen.
Andere Arten von Wetter k�nnen weitere Probleme verursachen, auch wenn diese nicht ganz so h�ufig sind. Sehr hohe Temperaturen zum Beispiel k�nnen zu �berlasteten K�hlsystemen f�hren und im Zuge dessen zu Stromausf�llen, wenn das �rtliche Stromnetz �berlastet wird.
Auch wenn man nicht viel am Wetter �ndern kann, ist jedoch das Wissen, inwiefern dies den Betrieb Ihres Datencenters beeinflussen kann, wichtig f�r das Aufrechterhalten des Betriebes, auch bei schlechtem Wetter.
8.1.4. Menschliches Versagen
Man sagt, dass Computer wirklich perfekt sind. Der Grund f�r diese Aussage ist, dass wenn man nur lange genug sucht, hinter jedem Computerfehler einen menschlichen Fehler findet, der diesen verursacht. In diesem Abschnitt werden die allgemeineren Typen menschlichen Versagens und deren Auswirkungen untersucht.
8.1.4.1. Fehler des Endbenutzers
Die Benutzer eines Computers k�nnen Fehler machen, die bedeutende Auswirkungen haben. Durch ein allgemein unprivilegiertes Betriebssystem sind Benutzerfehler meistens beschr�nkt. Da die meisten Benutzer mit einem Computer �ber eine oder mehrere Applikationen kommunizieren, treten die meisten Fehler innerhalb dieser Applikationen auf.
8.1.4.1.1. Unsachgem��e Verwendung von Applikationen
Wenn Applikationen nicht ordnungsgem�� verwendet werden, k�nnen verschiedene Probleme auftreten:
Dateien, die unbeabsichtigt �berschrieben wurden
Falsche Daten, die als Eingabe f�r eine Applikation verwendet wurden
Dateien, die nicht eindeutig benannt und organisiert wurden
Daten, die versehentlich gel�scht wurden
Die Liste k�nnte noch weiter gehen, reicht an diesem Punkt jedoch v�llig f�r Anschauungszwecke aus. Dadurch, dass Benutzer keine Superuser-Privilegien haben, beschr�nken sich die Fehler meistens auf deren eigene Dateien. Aus diesem Grund ist der beste Ansatz zweigleisig:
Lehren Sie Benutzern den richtigen Umgang mit Applikationen und richtige Dateimanagement-Techniken
Stellen Sie sicher, dass regelm��ig Backups der Benutzerdaten durchgef�hrt werden und dass der Wiederherstellungsprozess so gestrafft und schnell wie m�glich vonstatten geht.
Dar�berhinaus kann nur wenig getan werden, um Benutzerfehler auf ein Minimum zu beschr�nken.
8.1.4.2. Fehler des Bedienungspersonals
Bediener haben eine engere Beziehung mit den Rechnern in einem Unternehmen als Endbenutzer. Endbenutzer-Fehler sind eher auf Applikationen bezogen, w�hrend Bediener eine weitere Bandbreite von Aufgaben durchf�hren. Auch wenn die Art der Aufgabe von anderen vorgegeben wurde, k�nnen einige dieser Aufgaben die Verwendung von Utilities auf Systemebene miteinschlie�en. Die Arten von Fehlern, die ein Bediener machen kann, konzentrieren sich auf die F�higkeit des Bedieners, bestimmte Verfahrensweisen einzuhalten.
8.1.4.2.1. Nichteinhalten von Verfahrensweisen
Bediener sollten einen dokumentierten und verf�gbaren Satz an Verfahrensweisen f�r beinahe alle durchzuf�hrenden Aktionen haben [3]. Es kann vorkommen, dass ein Bediener den Richtlinien nicht 100prozentig folgt. Hierf�r kann es verschiedene Gr�nde geben:
Die Umgebung wurde irgendwann ge�ndert, die Prozeduren jedoch nicht aktualisiert. Nun �ndert sich die Umgebung wieder, was die Verfahrensweise im Kopf des Bedieners ung�ltig werden l�sst. Auch wenn jetzt die Verfahrensweisen aktualisiert werden (was relativ unwahrscheinlich ist, da diese auch vorher nicht aktualisiert wurden), ist dies dem Bediener h�chstwahrscheinlich nicht bewusst.
Die Umgebung wurde ge�ndert und es gibt keine bestimmten Verfahrensweisen. Dies ist so gesehen nur eine noch unkontrollierbarere Version der vorher beschriebenen Situation.
Es gibt Vorgehensweisen, der Bediener will oder kann jedoch diesen nicht folgen.
Abh�ngig von der Managementstruktur in Ihrem Unternehmen k�nnen Sie unter Umst�nden nicht mehr dazu beitragen, als Ihre Bedenken dem zust�ndigen Manager mitzuteilen. In jedem Fall k�nnen Sie Ihre Hilfe bei der L�sung des Problems anbieten
8.1.4.2.2. Fehler, die innerhalb bestimmter Vorgehensweisen gemacht werden
Auch wenn der Bediener sich genauestens an die Verfahrensweise h�lt und diese Prozeduren korrekt sind, k�nnen trotzdem Fehler auftreten. Ist dies der Fall, kann es sein, dass der Bediener nicht sorgf�ltig genug arbeitet (dann sollte das Management eingeschaltet werden).
Es kann auch ein einmaliger Fehler sein. In diesem Fall bemerkt ein ge�bter Bediener, dass irgendetwas nicht stimmt und sucht Hilfe. Ermutigen Sie die Bediener, die jeweilig Zust�ndigen zu kontaktieren, sollte etwas nicht richtig erscheinen. Auch wenn viele Bediener hoch-qualifiziert und in der Lage sind, viele Probleme selbst zu l�sen, ist es jedoch eine Tatsache, dass dies nicht in deren Aufgabenbereich f�llt. Und ein Problem, das durch einen gutgemeinten Versuch eines Bedieners lediglich schlimmer gemacht wurde, wirk sich nicht nur negativ auf den Bediener selbst aus, sondern auch auf Ihre F�higkeit, ein eventuell anf�nglich kleines Problem rasch zu l�sen.
8.1.4.3. Fehler von Systemadministratoren
Im Gegensatz zu Bedienern erf�llen Systemadministratoren eine gro�e Reihe von Aufgaben mittels Computern. Desweiteren basieren die Aufgaben, die von Systemadministratoren durchgef�hrt werden, meistens nicht auf dokumentierten Vorgehensweisen.
Aus diesem Grund schaffen sich Systemadministratoren manchmal zus�tzliche Arbeit, wenn diese nicht sorgf�ltig genug arbeiten. Im Laufe der t�glichen Arbeit haben Systemadministratoren gen�gend Zugang zu Systemen (und nicht zu vergessen Super-User Berechtigungen), um diese aus Versehen zum Absturz zu bringen.
Systemadministratoren unterlaufen dabei entweder Konfigurationsfehler oder Fehler w�hrend der Wartung.
8.1.4.3.1. Konfigurationsfehler
Systemadministratoren m�ssen h�ufig verschiedene Aspekte eines Computersystems konfigurieren. Dies umfasst:
E-Mail
Benutzer-Accounts
Netzwerk
Applikationen
Die Liste kann so noch eine Weile weitergehen. Die eigentliche Aufgabe beim Konfigurieren variiert. F�r einige Aufgaben m�ssen gro�e Textdateien bearbeitet werden (mit einer von hunderten verschiedener Konfigurationsdatei-Syntaxen) w�hrend f�r andere eine Konfigurations-Utility ben�tigt wird.
Die Tatsache, dass alle diese Aufgaben unterschiedlich gehandhabt werden, ist nur noch eine zus�tzliche Herausforderung zur eigentlichen Tatsache, dass jede Konfigurationsaufgabe eine andere Art von Wissen voraussetzt. So unterscheidet sich z.B. das Wissen, das zur Konfiguration eines Mail-Transport-Agents erforderlich ist, wesentlich vom Wissen, das zum Konfigurieren einer neuen Netzwerkverbindung notwendig ist.
So gesehen ist es nahezu verwunderlich, dass im Grunde gesehen nur so wenige Fehler gemacht werden. Auf jeden Fall ist die Konfiguration eine Herausforderung f�r Systemadministratoren und wird es wohl auch immer bleiben. Gibt es irgendetwas, was man tun kann, um den gesamten Prozess weniger fehleranf�llig zu machen?
8.1.4.3.1.1. �nderungs�berwachung
Der Grundgedanke bei jeder Konfigurations�nderung ist, dass eine gewisse Art von �nderung durchgef�hrt wird. Diese �nderung kann gro� oder auch klein sein, ist aber in jeden Fall eine �nderung und sollte auf bestimmte Art und Weise behandelt werden.
Viele Unternehmen haben eine bestimmte Art von �nderungs�berwachung implementiert. Der Hintergedanke dabei ist, Systemadministratoren (und allen, die von der �nderung betroffenen sind) bei der Durchf�hrung der �nderungen zu helfen und somit das Fehlerrisiko zu minimieren.
Eine �nderungs�berwachung teilt die �nderungen in verschiedene Schritte auf. Hier ein Beispiel:
Vorausgehende Recherche
Eine vorausgehende Recherche versucht Folgendes klar zu definieren:
Die Art der �nderung, die durchgef�hrt werden soll
Die Auswirkungen, falls die �nderung erfolgreich ist
Einen Plan B, falls die �nderung nicht erfolgreich ist
Eine Einsch�tzung, welche Arten von Ausf�llen vorkommen k�nnten
Vorausgehende Forschung kann das Testen der vorgeschlagenen �nderungen in einer geplanten Ausfallzeit sein oder sogar das Implementieren der �nderungen in einer besonderen Test-Umgebung auf dazu bestimmter Test-Hardware.
Planung
Die �nderungen werden in Hinblick auf die eigentliche Implementierung untersucht. Die Planung umfasst die Abfolge und den Zeitpunkt der �nderungen (zusammen mit der Abfolge und dem Zeitpunkt jeglicher Schritte, die n�tig werden, sollte ein Problem auftreten) sowie das Sicherstellen, dass die zugewiesene Zeit f�r die �nderung ausreichend ist und nicht mit anderen Aktivit�ten auf Systemebene in Konflikt ger�t.
Das Ergebnis dieses Prozesses ist h�ufig eine Schritt-f�r-Schritt gegliederte Checkliste f�r den Systemadministrator. Zusammen mit jedem Schritt werden Anweisungen gegeben, die ausgef�hrt werden m�ssen, sollte dieser Schritt fehlschlagen. Es werden auch gesch�tzte Zeiten angegeben, die einem Systemadministrator das Pr�fen erleichtern, ob alles nach Plan l�uft.
Ausf�hrung
Zu diesem Zeitpunkt ist die eigentliche Ausf�hrung der Schritte f�r die Implementierung der �nderungen klar und unmissverst�ndlich. Die �nderungen werden entweder implementiert oder (falls Probleme auftreten) auch nicht implementiert.
�berwachung
Unabh�ngig davon ob die �nderungen implementiert werden oder nicht, wird die Umgebung �berwacht, um sicherzustellen, dass alles richtig funktioniert.
Dokumentation
Wurden die �nderungen implementiert, so wird die bestehende Dokumentation aktualisiert, um die Konfigurations�nderungen zu reflektieren.
Offensichtlich erfordern nicht alle Konfigurations�nderungen diese Detailgenauigkeit. Das Erstellen eines neuen Benutzeraccounts sollte keine vorausgehende Recherche ben�tigen und das Planen beschr�nkt sich auf das Festlegen, wann der Systemadministrator einen Moment Zeit hat, um den Account einzurichten. Die Ausf�hrungsdauer ist dementsprechend kurz. Die �berwachung besteht lediglich aus dem Sicherstellen, dass der Account verwendbar ist und die Dokumentation beschr�nkt sich wahrscheinlich auf das Versenden einer E-Mail an der Manager des neuen Benutzers.
Mit immer komplexer werdenden Konfigurations�nderungen, entsteht auch der Bedarf nach formelleren �nderungs�berwachungs-Prozessen.
8.1.4.3.2. W�hrend der Wartung verursachte Fehler
Diese Art von Fehlern k�nnen heimt�ckisch sein, da die t�gliche Wartung selten geplant oder dokumentiert wird.
Systemadministratoren sehen die Ergebnisse dieser Art Fehler jeden Tag, insbesondere von Benutzern, die schw�ren, nichts ge�ndert zu haben — der Computer ist von ganz alleine kaputtgegangen. Der Benutzer kann sich zumeist nicht daran erinnern, was dieser zuletzt durchgef�hrt hat. Und wenn Ihnen das gleiche passieren w�rde, dann k�nnten Sie sich wahrscheinlich auch nicht mehr daran erinnern.
Wenn Sie in der Lage sein wollen, Probleme schnell zu l�sen, so m�ssen Sie sich immer daran erinnern k�nnen, welche �nderungen Sie w�hrend der Wartung gemacht haben. Ein "ausgewachsener" �nderungs�berwachungs-Prozess ist eher unrealistisch f�r die zahllosen kleinen Dinge, die im Laufe des Tages anfallen. Was k�nnen Sie nun tun, um die 101 kleinen Dinge, die ein Systemadministrator tagt�glich zu erledigen hat, im Auge zu behalten?
Die Antwort ist einfach — machen Sie Notizen. Machen Sie Notizen, egal ob auf Papier, in einem PDA oder in Form von Kommentaren in den betroffenen Dateien. Indem Sie sich aufschreiben, was Sie getan haben, haben Sie eine bessere Chance, einen Fehler auf eine zum Beispiel k�rzlich durchgef�hrte �nderung zur�ckzuf�hren.
8.1.4.4. Fehler des Wartungspersonals
Manchmal machen genau diejenigen, die Ihnen beim zuverl�ssigen Betrieb Ihrer Systeme helfen sollen, alles noch viel schlimmer. Dies ist keine Verschw�rung, sondern liegt im allgemeinen daran, dass irgendjemand, der an irgendeiner Technologie arbeitet, diese auch lahmlegen kann. Bei der Arbeit hat es den selben Effekt, wenn ein Programmierer zum Beispiel durch das Reparieren eines Bugs einen neuen Bug kreiert.
8.1.4.4.1. Unsachgem�� reparierte Hardware
In diesem Fall konnte ein Techniker entweder das Problem nicht richtig diagnostizieren und hat daraufhin eine unn�tige (und unn�tze) Reparatur durchgef�hrt oder die Diagnose war zwar korrekt, die Reparatur wurde jedoch nicht richtig ausgef�hrt. Es kann zum Beispiel sein, dass das Teil selbst kaputt war oder nicht die richtige Prozedur bei der Reparatur eingehalten wurde.
Aus diesem Grund ist es wichtig, zu jeder Zeit den �berblick zu haben, was der Techniker gerade macht. Dadurch k�nnen Sie auf Ausf�lle achten, die den Anschein erwecken auf irgendeine Weise mit dem eigentlichen Problem in Verbindung zu stehen. Dies h�lt auch den Techniker auf dem Laufenden, falls ein Problem auftreten sollte. Ansonsten besteht die Chance, dass der Techniker dieses Problem als neu betrachtet und nicht in Zusammenhang mit dem angeblich bereits reparierten Problem sieht. Auf diese Weise wird keine Zeit mit dem Suchen nach dem falschen Problem verschwendet.
8.1.4.4.2. Beim L�sen eines Problems ein anderes schaffen
Es kann manchmal vorkommen, dass auch wenn ein Problem diagnostiziert und erfolgreich gel�st wurde, ein anderes Problem an dessen Stelle auftaucht. Ein CPU-Modul wurde ersetzt, die Plastikverpackung dessen wurde jedoch im Schrank gelassen, blockiert nun den L�fter und verursacht einen Ausfall durch �berhitzung. Oder die fehlerhafte Festplatte im RAID-Array wurde ersetzt, da aber versehentlich ein Stecker auf einer anderen Festplatte getrennt wurde, ist das Array weiterhin betriebsunf�hig.
Diese Dinge k�nnen das Ergebnis chronischer Schlampigkeit oder eines unbeabsichtigten, einmaligen Fehlers sein. Schlussendlich macht es keinen Unterschied. Sie sollten grunds�tzlich die Reparaturen eines Technikers sorgf�ltig pr�fen und sicherstellen, dass das System ordnungsgem�� funktioniert, bevor der Techniker Ihr Unternehmen verl�sst.
Und dies w�re die bestm�gliche Reaktionszeit, da technisches Personal meistens f�r eine ganze Gegend verantwortlich ist, die sich in alle Richtungen um das Hauptquartier erstrecken kann. Wenn Sie sich an einem Ende des Bereichs befinden und der einzig verf�gbare Techniker am anderen Ende ist, dann ist die Reaktionszeit wesentlich l�nger
Bestehen keine g�ltigen Richtlinien zum Thema Verfahrensweisen in Ihrem Unternehmen, arbeiten Sie am besten mit den Bedienern selbst, dem Management und den Endbenutzern zusammen, um solche zu erstellen. Ohne gewisse Richtlinien ist ein Datencenter im wahrsten Sinne des Wortes au�er Kontrolle. Fr�her oder sp�ter ist das Auftreten schwerwiegender Probleme h�chstwahrscheinlich.