[Cologne-pm] Hallo Zusammen

Berthold Cogel cogel at rrz.uni-koeln.de
Wed Jul 6 01:01:41 PDT 2005


j.huettemeister at gmx.net wrote:
> Also:
> ich will ne große Anzahl server mit rrdtool überwachen. Bisher verfahr ich 
> folgendermaßen:
> über einen minütlichen cronjobs wird per ssh logtail auf einem remote Server 
> aufgeführt. Der output wird geparsed, nach Sekunden sortiert und in eine rrd 
> Datei geschrieben. Der step der rrd Datei ist 60 Sekunden, ich mache die 
> updates dennoch auf Sekundenbasis, da logtail die Daten nicht etwa bis zur 
> *vollen* Minute zurückgibt, sondern bis zum Dateiende.
> 

Warum nimmt Du nicht Ganglia (http://ganglia.sourceforge.net/)?

Ich weiß, selber schreiben ist spannender! ;-)

Wir setzen Ganglia zusammen mit BigBrother (http://www.bb4.org/) zur 
Überwachung unserer Syteme ein und es funktioniert 'out of the box' 
hervorragend. Inclusive Webinterface. Ganglia wird weltweit in großen 
Cluster-Installationen eingesetzt.

Ein Beispiel kannst Du Dir ansehen unter: 
http://meta.rocksclusters.org/Rocks-Network/

Man kann Systeme zu Gruppen (Clustern) zusammenfassen und so Übersichten 
über die Daten der Gruppen erhalten. Und es unterstützt die 
verschiedensten Plattformen. Neben den vorgegebenen Größen kann man über 
gmetric mit eigenen Scripten zusätzliche Daten wie CPU-Temperatur und 
Lüfter-Drehzahl erfassen.

Auf jedem System läuft ein Daemon (gmond), der die Daten sammelt und 
verteilt. Die Mitglieder einer Gruppe kommunizieren untereinander, so 
daß jeder die Daten aller anderen hat. Zusätzlich gibt es einen oder 
mehrere (kaskadierbare) 'Sammelpunkte' (gmetad), auf denen die Daten in 
rrd-Dateien zusammenlaufen. Der 'Haupt'-gmetad schließlich wird durch 
das Webinterface (PHP) abgefragt. In der Version, die wir zur Zeit 
einsetzen, läuft die Kommunikation zwischen den Rechnern einer Gruppe 
per Multicast im XML-Format. Für verschiedene Gruppen definiert man 
unterschiedliche Multicast-Ports. Zwischen den Systemen kann man 
Vertrauensverhältnisse definieren. D.h. man definiert, wer die Daten 
lesen darf.

Auf dem Weg könntest Du dich auf die Datenerfassung und Konfiguration 
des Webinterfaces für Zusatzdaten beschränken. Das Framework für die 
Kommunikation existiert ja bereits. Für gmetric existiert ein Repository 
mit Zusätzen.

Wir überwachen derzeit 162 Hosts mit 537 CPUs auf diesem Weg (u.a. 
unseren Opteron Cluster mit 128 Doppelprozessor-Rechenknoten).
Zur Zeit noch ohne gmetric. Das kommt aber noch, nachdem wir jetzt einen 
Weg gefunden haben, die Hardwaresensoren unserer Systeme auszulesen.

In der aktuellen Version haben sich ein paar Dinge geändert. Bei 
Gelegenheit werden wir aber updaten, da noch mehr Plattformen 
unterstützt werden.

Gruss
Berthold


-- 
Dr. rer. nat. Berthold Cogel                   University of Cologne
E-Mail: cogel at rrz.Uni-Koeln.DE                 ZAIK-US (RRZK)
Tel.:   +49(0)221/470-7873                     Robert-Koch-Str. 10
FAX:    +49(0)221/478-85845                    D-50931 Cologne - Germany


More information about the Cologne-pm mailing list