[Cologne-pm] Hallo Zusammen
Berthold Cogel
cogel at rrz.uni-koeln.de
Wed Jul 6 01:01:41 PDT 2005
j.huettemeister at gmx.net wrote:
> Also:
> ich will ne große Anzahl server mit rrdtool überwachen. Bisher verfahr ich
> folgendermaßen:
> über einen minütlichen cronjobs wird per ssh logtail auf einem remote Server
> aufgeführt. Der output wird geparsed, nach Sekunden sortiert und in eine rrd
> Datei geschrieben. Der step der rrd Datei ist 60 Sekunden, ich mache die
> updates dennoch auf Sekundenbasis, da logtail die Daten nicht etwa bis zur
> *vollen* Minute zurückgibt, sondern bis zum Dateiende.
>
Warum nimmt Du nicht Ganglia (http://ganglia.sourceforge.net/)?
Ich weiß, selber schreiben ist spannender! ;-)
Wir setzen Ganglia zusammen mit BigBrother (http://www.bb4.org/) zur
Überwachung unserer Syteme ein und es funktioniert 'out of the box'
hervorragend. Inclusive Webinterface. Ganglia wird weltweit in großen
Cluster-Installationen eingesetzt.
Ein Beispiel kannst Du Dir ansehen unter:
http://meta.rocksclusters.org/Rocks-Network/
Man kann Systeme zu Gruppen (Clustern) zusammenfassen und so Übersichten
über die Daten der Gruppen erhalten. Und es unterstützt die
verschiedensten Plattformen. Neben den vorgegebenen Größen kann man über
gmetric mit eigenen Scripten zusätzliche Daten wie CPU-Temperatur und
Lüfter-Drehzahl erfassen.
Auf jedem System läuft ein Daemon (gmond), der die Daten sammelt und
verteilt. Die Mitglieder einer Gruppe kommunizieren untereinander, so
daß jeder die Daten aller anderen hat. Zusätzlich gibt es einen oder
mehrere (kaskadierbare) 'Sammelpunkte' (gmetad), auf denen die Daten in
rrd-Dateien zusammenlaufen. Der 'Haupt'-gmetad schließlich wird durch
das Webinterface (PHP) abgefragt. In der Version, die wir zur Zeit
einsetzen, läuft die Kommunikation zwischen den Rechnern einer Gruppe
per Multicast im XML-Format. Für verschiedene Gruppen definiert man
unterschiedliche Multicast-Ports. Zwischen den Systemen kann man
Vertrauensverhältnisse definieren. D.h. man definiert, wer die Daten
lesen darf.
Auf dem Weg könntest Du dich auf die Datenerfassung und Konfiguration
des Webinterfaces für Zusatzdaten beschränken. Das Framework für die
Kommunikation existiert ja bereits. Für gmetric existiert ein Repository
mit Zusätzen.
Wir überwachen derzeit 162 Hosts mit 537 CPUs auf diesem Weg (u.a.
unseren Opteron Cluster mit 128 Doppelprozessor-Rechenknoten).
Zur Zeit noch ohne gmetric. Das kommt aber noch, nachdem wir jetzt einen
Weg gefunden haben, die Hardwaresensoren unserer Systeme auszulesen.
In der aktuellen Version haben sich ein paar Dinge geändert. Bei
Gelegenheit werden wir aber updaten, da noch mehr Plattformen
unterstützt werden.
Gruss
Berthold
--
Dr. rer. nat. Berthold Cogel University of Cologne
E-Mail: cogel at rrz.Uni-Koeln.DE ZAIK-US (RRZK)
Tel.: +49(0)221/470-7873 Robert-Koch-Str. 10
FAX: +49(0)221/478-85845 D-50931 Cologne - Germany
More information about the Cologne-pm
mailing list