Permalink

0

Mein Wochenende auf den CLT 2018

Geplant war ja eigentlich, dass wir auf den diesjährigen Chemnitzer Linux-Tagen unser neues invis-Server Release unter Dach und Fach bringen. Wäre passend gewesen, da es ohnehin genug zu feiern gab. Vor allem natürlich das 20 jährige Jubiläum der CLT und ganz nebenbei unser 10 jähriges als Aussteller. …aber manchmal kommt alles ganz anders.

Es ist Freitag Abend, der Stand ist aufgebaut und wir sind bereit unserer liebgewonnenen Tradition, dem Besuch beim Griechen zu frönen, als ich eine SMS eines Kunden bemerke. Er meldet, dass er weder Mails versenden, noch empfangen kann. Für den Kunden betreibe ich eine individuelle VM, die auf einem gemieteten Server im RZ eines hinlänglich bekannten Hosters läuft. Ein kurzer Test, es klappt nicht mal mehr ein SSH-Login. OK, VM neustarten und dann wieder testen. Nach dem Neustart lief alles wie geplant, also ab zum Griechen. (Dass es dort Ouzo in durchaus nennenswerten Mengen gibt, hatte ich hier glaube ich schon mal erwähnt.)

Samstag morgen – eine Aspirin war nötig – zurück am Stand, sicherheitshalber mal Emails prüfen. Der Kunde kann, aus seiner Sicht, noch immer keine Mails senden und empfangen, teilt er mir über seinen privaten Account mit. Die VM ist schon wieder nicht per SSH erreichbar, gleiches gilt wie sich herausstellt auch für weitere VMs auf diesem Host. Im Klartext bedeutet dies, dass etwa 20 Kunden Domains inklusive Website und Mail gerade down sind.

Ursachen-suche, mit ein paar Ouzo-Nachwirkungen, ist ein bisschen mühsamer als üblich, aber machbar. Es stellte sich heraus, dass eine der beiden Festplatten aus dem RAID1 Verbund des Hosts angeschlagen ist und dadurch die VMs immer wieder aus dem Tritt kommen. Nebenbei konnte ich feststellen, dass auch das Setup des Bootmanagers, der inzwischen reichlich betagten SLES11 Installation des Hosts, beschädigt ist. Aus dieser Situation heraus einen Tausch der Festplatte in Auftrag zu geben, wäre Selbstmord, also muss Plan B her.

Plan B sah so aus, dass ich beim Hoster ad-hoc einen neuen Server in Auftrag gegeben habe. Bereits 15 Minuten später stand dieser zur Verfügung, toller Service! Der Rest meines „Messe-Samstags“ bestand für mich darin, den neuen Server zu installieren und das Setup des alten Hosts und die VMs auf den neuen Server zu übertragen.  Offen gelassen habe ich noch das Umschalten des Failover-Netzes in dem die VMs laufen, am Sonntag Morgen wollte ich dann lieber erst noch mal alles kontrollieren.

Das samstägliche Jubiläums-Buffet und die zugehörige Party wollte ich, ja dann schon mitnehmen. (@CLT: Das war klasse!)

Sonntag morgen, nach ein paar Kontrollen drücke ich den Knopf; das Failover-Netz wird binnen 60 Sekunden umgeroutet und die VMs sind alle wieder am Start. Zurücklehnen, entspannen und dann ein bisschen was von den CLT mitbekommen.

Leider spielte Murphy da nicht mit! Etwa 30 Minuten nach dem alles in Betrieb war ist der komplette neue Server (ich spreche vom Blech) abgeschmiert. Es blieb nur ein Hardware-Reset. Das Ganze wiederholte sich binnen Minuten noch einmal. Danach hatte ich wenigstens Zeit genug mir das Journal des Servers anzuschauen. Wie sich herausstellte hatten das BIOS des neuen „Fujitsu“ Servers und der Kernel meines openSUSE leap 42.3 Systems einige unüberbrückbare Differenzen hinsichtlich der Funktionsweise von ACPI. (Im Zusammenhang mit Hardware des genannten Herstellers ist mir das schon öfters untergekommen.) OK, ohne ACPI booten, sollte den Job erledigen.

Zweiter Versuch mit „Zurücklehnen und Entspannen“. Auch beim zweiten Mal spielte Murphy nicht mit. Der Server war nach kurzer Zeit wieder weg, diesmal hat sich der Treiber der Netzwerkkarte aufgehängt, was die Sache nicht besser macht. So geht’s nicht weiter, ein neuer Plan muss her.

Der alte Server muss den Job wieder übernehmen, also Festplattentausch in Auftrag gegeben und das ganze Spiel zurück. Auch hier ein großes Lob an den Hoster, trotz Wochenende war nach spätestens 10 Minuten die Festplatte getauscht. Dann Server neu installieren, Konfiguration übernehmen und VMs zurück synchronisieren, alles wie bereits gehabt.

Inzwischen ging die CLT zu Ende, alle bauten Ihre Stände ab, so auch Ines und Ingo, nur ich hing an meinem Laptop. Das Abschalten von Strom und Netzwerk wurde angekündigt bevor ich mit allem fertig war, also Laptop einpacken und dann während der Rückfahrt im Auto alles vollenden.  Rund um Chemnitz gibt es an den Autobahnen übrigens hervorragenden Mobilfunk….

Montag Morgen lief bis auf ein paar kleinere Wehwehchen wieder alles rund, kaum einer meiner Kunden hat etwas vom Drama bemerkt und ich war hundemüde. Wenn mir jetzt noch jemand erzählen kann, wie es auf den CLT 2018 war, wäre ich glücklich.

Inzwischen mit zwei Wochen Verspätung haben wir dann auch invis-Server Version 13.1 veröffentlicht.

Mein Dank geht auf jeden Fall an die Fa. Hetzner, auf deren großartigen Service und deren hervorragende Tools absolut Verlass ist! Nur den Fujitsu Server hätte ich nicht gebraucht, aber auch bei dem wurde inzwischen ohne Diskussion das Mainboard getauscht.

Stefan

Schreibe einen Kommentar