Server Upgrade abgeschlossen!

Endlich ist es geschafft! Die Server sind nun mit neuer Hardware ausgestattet!

Vorwort

Nicht alles lief beim Upgrade nach Plan. Ein kaputtes Mainboard, Eigenverschulden, zog das Upgrade in die Länge und verursachte den längsten Teilausfall in der gesamten Zeit seit 2011 – das war wirklich ärgerlich.

Eine ungünstige Konstellation aus „ich will jetzt upgraden“ und „morgen muss ich aber auf Dienstreise“ kamen zum unkonzentrierten Verhalten dazu, was sich im Laufe des Upgrades rechen sollte!

Der Ablauf

Am 09.01.2024 bin ich gegen 16:30 Uhr ins Rechenzentrum gefahren, habe mir die Schlüssel zum Rack besorgt und bin zum Rechenzentrum gelaufen. Dort angekommen habe ich die Server geplant heruntergefahren und ausgebaut und mit dem unkritischeren Hostsystem begonnen.

Deckel ab, CPU Heat Sinks abmontiert und los ging der Spaß. CPUs runter, neue CPUs drauf, Wärmeleitpaste drauf, Heat Sinks wieder montiert und im Anschluss alle 16GB Module von Board demontiert. Zuletzt wurden dann die 32GB Module installiert (10 Stück an der Zahl) und der Server wurde wieder ins Rack gehangen. Nach dem Einschalten fuhr dieser auch sofort ohne Probleme hoch. Für den ersten Server habe ich bereits 1,5 Stunden gebraucht – inkl. Ausbau war es schon 19:00 Uhr – da ich das Ganze vernünftig erledigen wollte. Beim zweiten Server wollte ich die Geschwindigkeit etwas erhöhen. Also die ganze Prozedur noch einmal.

Beim einsetzen der zweiten CPU dann der Fehler: Diese fiel mir aus der Hand in den offenen Sockel …… Eine kurze (zu kurze) Sichtprüfung ergab, dass alles okay ist. Im Nachhinein: Falsch gedacht. Nach dem Zusammenbau und hochfahren lief der Server zunächst ein paar Minuten. Also machte ich mich auf dem Heimweg. Zuhause angekommen musste ich dann feststellen, dass der Server inzwischen abgestürzt ist und im „Loading BIOS driver“ Post-Load festhing. Also bin ich zurück ins Rechenzentrum gefahren und habe bis 2 Uhr morgens versucht den Server wieder ans Laufen zu bekommen – vergebens. Mitten in der Nacht habe ich diesen ausgebaut und mit nach Hause genommen und bin am nächsten Tag auf Dienstreise gefahren. Schon in der Nacht hat mir der DELL Support mitgeteilt, dass das Board vermutlich defekt ist. Also habe ich mich während der Dienstreise darum gekümmert ein neues Board zu besorgen. Dieses konnte ich dann am 11.01.2024 einbauen und den Server in Betrieb nehmen, nachdem ich diesen wieder ins Rechenzentrum gebracht habe.

 

Die Untersuchung des Sockel

In der Nacht vom 12.01 auf den 13.01 habe ich dann den Sockel untersucht und einen verbogenen Pin gefunden, der wohl dafür sorgte, dass das Board einer Überspannung unterlag und nachhaltig zerstört wurde.

Zum Glück wurden weder die CPUs noch der RAM dabei beschädigt, aber schlechte Laune hatte ich dennoch!

Am Ende wird alles gut!

Fazit: Es läuft alles und die Server laufen.