NOTE: CentOS Enterprise Linux is built from the Red Hat Enterprise Linux source code. Other than logo and name changes CentOS Enterprise Linux is compatible with the equivalent Red Hat version. This document applies equally to both Red Hat and CentOS Enterprise Linux.
Linuxtopia - CentOS Enterprise Linux Einfuhrung in die System-Administration - Was �berwachen?
Red Hat Enterprise Linux 4: Einf�hrung in die System-Administration
Wie bereits erw�hnt sind die Ressourcen in jedem System CPU-Leistung, Bandbreite, Speicher und Speicherplatz. Auf den ersten Blick scheint es, dass die �berwachung sich nur um die Untersuchung dieser vier Dinge dreht.
Leider ist es nicht ganz so einfach. Denken Sie zum Beispiel an eine Festplatte. Was w�rden Sie gerne �ber deren Leistungsf�higkeit erfahren?
Wieviel freier Platz steht zur Verf�gung?
Wieviele I/O-Operationen werden pro Sekunde durchschnittlich ausgef�hrt?
Wie lange dauert es, bis jede I/O-Operation abgeschlossen ist?
Wieviele dieser I/O-Operationen sind Lesen? Wieviele Schreiben?
Was ist die durchschnittliche Gr��e von Daten, die mit jedem I/O gelesen/geschrieben werden?
Es gibt nat�rlich weitere Methoden zur Untersuchung der Festplattenleistung. Die oben genannten Punkte haben sich nur mit einem winzigen Teil des Ganzen besch�ftigt. Das Hauptkonzept ist, dass es viele verschiedene Datentypen f�r jede Ressource gibt.
Die folgenden Abschnitte besch�ftigen sich mit den Arten der Nutzungsinformationen, die f�r jede der Hauptressourcen hilfreich sind.
2.4.1. �berwachung der CPU-Leistung
In seiner einfachsten Form bedeutet die �berwachung der CPU-Leistung nicht mehr als festzustellen, ob die CPU-Ausnutzung 100% erreicht. Liegt diese Ausnutzung unter 100%, egal was das System gerade macht, steht weitere Prozess-Leistung zur Verf�gung.
Es ist jedoch selten, dass Systeme die 100% CPU-Ausnutzung nicht zumindest manchmal erreichen. An diesem Punkt ist es wichtig, die CPU-Ausnutzungsdaten eingehender zu betrachten. Hierdurch k�nnen Sie dann feststellen, wo der Hauptteil der Prozess-Leistung genutzt wird. Hier finden Sie einige der bekannteren CPU-Nutzungsstatistiken:
Benutzer versus System
Der Prozentsatz der Zeit, der auf Benutzer-basierte Verarbeitung im Gegensatz zu System-basierter Verarbeitung aufgewendet wird, kann aufzeigen, ob die Systemlast durch ausgef�hrte Applikationen oder durch eine �berlastung des Betriebssystems verursacht wird. Hohe Benutzer-basierte Prozents�tze sind ein gutes Zeichen (solange die Benutzer mit der Leistung zufrieden sind), w�hrend hohe System-basierte Prozents�tze Probleme aufzeigen, die eventuell weitere Nachforschung erfordern.
Context-Switches
Ein Context-Switch findet dann statt, wenn die CPU einen Prozess beendet und damit beginnt einen neuen Prozess auszuf�hren. Da jeder Context-Switch vom Betriebssystem verlangt, Kontrolle �ber die CPU zu erhalten, gehen exzessive Context-Switches und hoher CPU-Verbrauch auf System-Ebene Hand in Hand.
Interrupts
Wie der Name besagt (Interrupts; engl. f�r Unterbrechungen) sind Interrupts Situationen, bei denen die Verarbeitung der CPU abrupt unterbrochen wird. Interrupts treten h�ufig aufgrund von Hardware-Aktivit�ten (z.B. ein I/O-Ger�t schlie�t eine I/O-Operation ab) oder aufgrund von Software (z.B. Software-Interrupts, die die Verarbeitung von Applikationen steuern) auf. Da Interrupts auf System-Ebene behoben werden m�ssen, f�hren hohe Interrupt-Raten zu erh�htem CPU-Verbrauch auf System-Ebene.
Ausf�hrbare Prozesse
Ein Prozess kann sich in verschiedenen Zust�nden befinden. So zum Beispiel:
Wartend, dass eine I/O abgeschlossen wird
Wartend auf das Speicher-Verwaltungs-Subsystem, dass ein Seitenfehler behoben wird
In diesen Umst�nden hat der Prozess keinen Bedarf f�r die CPU.
Irgendwann �ndert sich jedoch der Prozess-Status und der Prozess wird ausgef�hrt. Ein ausf�hrbarer Prozess f�hrt, wie der Name schon sagt, Aufgaben aus, sobald dieser dazu Zeit von der CPU erh�lt. Werden jedoch mehr als ein Prozess [1] ausgef�hrt, so m�ssen alle Prozesse bis auf einen Prozess warten, bis diese an der Reihe sind. Indem Sie die Anzahl der ausf�hrbaren Prozesse �berwachen, k�nnen Sie feststellen, wie stark Ihr System eingebunden ist.
Andere Leistungs-Metriken, welche die Auswirkung auf die CPU-Ausnutzung veranschaulichen, umfassen verschiedene Services, die das Betriebssystem den Prozessen bereitstellt. Dies k�nnen Statistiken zur Speicherverwaltung, I/O-Verarbeitung und so weiter sein. Diese Statistiken zeigen au�erdem, dass wenn die Leistung �berwacht wird, es keine Grenzen zwischen den verschiedenen Statistiken gibt. Mit anderen Worten hei�t dies, dass die CPU-Ausnutzungsstatistiken ein Problem im I/O-Subsystem anzeigen oder dass die Speichernutzungsstatistik einen Designfehler in einer Applikation aufzeigen kann.
Wenn Sie daher die Systemleistung �berwachen, ist es nicht m�glich, nur eine Statistik isoliert zu betrachten. Lediglich indem Sie das gesamte Bild betrachten, k�nnen Sie wichtige Informationen aus den Leistungsstatistiken herausziehen.
2.4.2. �berwachung der Bandbreite
Das �berwachen der Bandbreite ist schwieriger als die anderen hier beschriebenen Ressourcen. Der Grund hierf�r ist, dass Leistungsstatistiken eher auf Ger�ten basieren, w�hrend die Bandbreite eher in Bezug auf Busse, die die Ger�te verbinden, wichtig ist. In solchen F�llen, in denen ein Ger�t einen allgemeinen Bus teilt, sehen Sie zwar normale Statistiken f�r jedes Ger�t, die gesammelte Last auf den Ger�ten am Bus ist jedoch wesentlich gr��er.
Eine weitere Herausforderung bei der �berwachung der Bandbreite ist der Umstand, dass es vorkommen kann, dass Statistiken f�r die Ger�te nicht verf�gbar sind. Dies gilt insbesondere f�r System-Erweiterungsbusse und Datenpfade[2]. Auch wenn 100% exakte Bandbreiten-Statistiken nicht immer zur Verf�gung stehen, gibt es jedoch meistens gen�gend Informationen, um einen gewissen Analyse-Grad zu erreichen; insbesondere dann, wenn verwandte Statistiken ber�cksichtigt werden.
Einige der h�ufigeren Bandbreiten-bezogenen Statistiken sind:
Bytes empfangen/gesendet
Netzwerk-Schnittstellen-Statistiken liefern einen Anhaltspunkt f�r die Bandbreitennutzung auf einem der offensichtlicheren Busse — dem Netzwerk.
Schnittstellen-Counts und -Raten
Diese Netzwerk-bezogenen Statistiken geben Hinweise auf �berm��ige Kollisionen, �bertragene und empfangene Fehler und vieles mehr. Durch diese Statistiken (insbesondere wenn diese f�r mehr als ein System im Netzwerk zur Verf�gung stehen) ist es m�glich, Problembehebung im Netzwerk durchzuf�hren, bevor allgemeinere Netzwerk-Diagnose-Tools eingesetzt werden m�ssen.
�bertragungen pro Sekunde
Normalerweise f�r I/O-Block-Ger�te wie Festplatten und Hochleistungs-Bandger�te ist diese Statistik eine gute Methode festzustellen, ob die Bandbreite f�r ein bestimmtes Ger�t ausgelastet ist. Durch ihre elektro-mechanische Natur k�nnen Festplatten und Bandger�te nur eine gewissen Anzahl von I/O-Operationen pro Sekunde ausf�hren. Deren Leistung sinkt erheblich, wenn diese Grenze erreicht wird.
2.4.3. �berwachung von Speicher
Es gibt nur einen Bereich, in dem eine Vielzahl an Leistungsstatistiken gefunden werden k�nnen. Dies ist die �berwachung der Speichernutzung. Durch die inh�rente Komplexit�t moderner Betriebssysteme mit virtuellem Speicher auf Bedarfsbasis sind Statistiken zur Speichernutzung zahlreich und h�chst unterschiedlich. In diesem Bereich findet ein Gro�teil der Arbeit eines Systemadministrators f�r das Ressourcenmanagement statt.
Die folgenden Statistiken stellen einen groben �berblick �ber allgemeine Speicher-Management-Statistiken dar:
Page-Ins/Page-Outs
Durch diese Statistiken kann der Fluss von Seiten vom Systemspeicher zu Massenspeicherger�ten (Festplatten) gemessen werden. Hohe Raten dieser Statistiken bedeuten, dass das System zu wenig physikalischen Speicher hat und �berlastet ist oder mehr Systemressourcen auf das Verschieben von Seiten in und aus dem Speicher aufwendet, als auf das eigentliche Ausf�hren von Applikationen.
Aktive/Inaktive Seiten
Diese Statistik zeigt, wie stark speicherresidente Seiten verwendet werden. Ein Fehlen inaktiver Seiten kann auf ein Fehlen von ausreichendem physikalischem Speicher hinweisen.
Freie, gemeinsam benutzte, gepufferte und gecachete Seiten
Diese Statistiken liefern zus�tzlich Details zu den einfacheren 'Aktive/Inaktive Page'-Statistiken. Durch das Verwenden dieser Statistik ist es m�glich, die gesamte Verwendung des Speichers festzustellen.
Swap-Ins/Swap-Outs
Diese Statistiken zeigen das Swapping-Verhalten des gesamten Systems. �berm��ige Raten k�nnen hier auf Unzul�nglichkeiten im physikalischen Speicher hinweisen.
Die erfolgreiche �berwachung der Speichernutzung erfordert ein grundlegendes Verst�ndnis �ber die Funktionsweise von Betriebssystemen mit virtuellem Speicher auf Bedarfsbasis. W�hrend dieses Thema allein ein ganzes Buch umfassen kann, werden die Grundkonzepte unter Kapitel 4 beschrieben. Dieses Kapitel, zusammen mit der Zeit, die Sie mit der �berwachung des Systems verbringen, gibt Ihnen den Grundstein f�r das aufzubauende Verst�ndnis dieses Themas.
2.4.4. �berwachen von Speicherplatz
Das �berwachen des Speicherplatzes findet auf zwei verschiedenen Ebenen statt:
Auf ausreichenden Festplattenplatz hin �berwachen
Auf Speicher-bezogene Leistungsprobleme hin �berwachen
Der Grund hierf�r ist die M�glichkeit schwerwiegende Probleme in dem einen Bereich zu haben und gar keine Probleme in einem anderen Bereich. Es ist zum Beispiel m�glich, dass eine Festplatte nicht mehr �ber gen�gend Speicher verf�gt, ohne dass dieser Umstand auch nur ein einziges mal leistungsbezogene Probleme aufwirft. Andererseits ist es m�glich, dass eine Festplatte 99% freien Platz hat, jedoch in Bezug auf das Leistungsverhalten deren eigene Grenzen �berschreitet.
Es ist jedoch wahrscheinlicher, dass das durchschnittliche System variierende Grade von Ressourcen-Einbu�en in beiden Kategorien erf�hrt. Es ist daher auch wahrscheinlich, dass — zu einem gewissen Grad — Probleme in einem Bereich zu Problemen im anderen Bereich f�hren. Der h�ufigste Typ dieser Interaktion nimmt die Form geringer und geringer werdender I/O-Leistung an, wenn eine Festplatte fast keinen freien Platz mehr besitzt.
In jeden Fall sind die folgenden Statistiken n�tzlich f�r das �berwachen von Speicherplatz:
Freier Platz
Freier Platz ist wahrscheinlich die Ressource, die von allen Systemadministratoren genauestens �berwacht wird. Es ist ziemlich selten, dass ein Systemadministrator niemals den freien Platz �berpr�ft (oder einen automatisierten Weg daf�r gefunden hat).
Dateisystem-bezogene Statistiken
Diese Statistiken (wie z.B. �ber die Anzahl von Dateien/Verzeichnissen, die durchnittliche Dateigr��e etc.) liefern zus�tzliche Details �ber den Prozentsatz freien Festplattenplatzes. Diese Statistiken erm�glichen es Adminisratoren, das System f�r die bestm�gliche Leistung zu konfigurieren, da die I/O-Last von einem Dateisystem mit einer Vielzahl kleiner Dateien sich von der eines Systems mit einer einzigen, riesigen Datei unterscheidet.
�bertragungen pro Sekunde
Diese Statistik ist eine gute Methode festzustellen, ob die Grenzen der Bandbreite auf einem bestimmten Ger�t erreicht wurden.
Lese-/Schreibvorg�nge pro Sekunde
Als eine ein wenig detailliertere Analyse von �bertragungen pro Sekunde, erm�glichen diese Statistiken dem Systemadministrator die Natur der I/O-Lasten, die ein Speicherger�t erf�hrt, besser zu verstehen. Dies kann kritisch sein, da einige Technologien sehr unterschiedliche Performance-Merkmale f�r Lese- versus Schreib-Operationen aufweisen.