Dieser Post gehört zu einer Serie von Post Mortems. Konkret geht es um ein Ereignis im September. Hätte ich mich an die Hinweise aus der Erklärung gehalten, hätte ich das hier im September schreiben sollen und nicht im November.

Inhaltsverzeichnis

Ereignisbeschreibung

Am 11. September gegen 12 Uhr ist der heimische Router ausgefallen. Es war keine Netzwerkkonnektivität mehr vorhanden. Es kam zu einem Ausfall der Internetverbindung inklusive VPN. Der Ausfall wurde durch externes Monitoring festgestellt. Ich war zum Zeitpunkt des Ereignisses nicht zuhause und musste mit der Problemlösung bis zum Abend warten.

Bei dem Router handelt es sich um ein Ubiquiti UniFi Security Gateway (USG), das zusammen mit Switchen und Access Points über eine Weboberfläche zentral gemanagt wird.

Ursachenanalyse

Die Hauptursache des Netzausfalls war wahrscheinlich Überhitzung.

Handlungen

Nachdem klar wurde, dass der Router nicht mehr über das Netzwerk erreichbar ist, habe ich ihn zuerst neu gestartet. Nachdem mehrere Versuche in der Richtung nicht geklappt haben, habe ich versucht den Router auf Werkseinstellungen zurükzusetzen.

Nachdem auch so der gewünschte Erfolg ausblieb, tauschte ich den ausgefallenen Router gegen ein anderes, vorhandenes Modell, einen EdgeRouter. Die Internetverbindung stand wieder.

Auffällig war am defekten Router nur die Temperatur beim Ausbau. Ich habe den Router aufgeschraubt und konnte nichts erkennen. Der Router enthält einen USB-Stick, auf dem sich das Betriebssystem befindet. Ich habe ein paar Tage später einen Ersatz-USB-Stick mit dem OS geflasht und ausprobiert. Der Router war trotzdem nicht im Netz erreichbar.

Bild eines Routers

Bild eines Routers

Über die zentrale Weboberfläche kann der Edgerouter nicht gemanagt werden. Daher blieb als Ausweg nur eine Ersatzbeschaffung des kaputtgegangenen Modells.

Die Einrichtung des Ersatzgerätes war auch schwerer als gedacht. Damit der neue Router funktioniert, muss er erstmal geupdatet werden. Dazu braucht es Internet. Also habe ich den Neuen an das Netzwerk angeschlossen. Der Router bekam dann via DHCP eine Adresse aus einem Netz zugewiesen, das er auf einem anderen Default-Interface bereits hatte. Nachdem das behoben wurde, funktionierte wieder alles.

Ablauf

ZeitpunktAktion
2019‑09‑11 12:00Routerausfall wurde durch Monitoring festgestellt
2019‑09-11 18:00Beginn der Ursachensuche
2019‑09‑11 19:30Entscheidung, dass der Router getauscht wird.
2019‑09‑11 20:30Der defekte Router wurde gegen einen vorläufigen Ersatz ausgetauscht. Wiederherstellung der Internetverbindung.
2019‑09‑12Versuch den USB-Stick mit dem Betriebssystem zu tauschen
2019‑09‑14Paket mit Ersatzrouter kommt an und der vorläufige Router wird wieder gegen das vorherige Router-Modell getauscht.

Zusammenfassung und nächste Schritte

Der Ausfall eines Routers konnte durch einen Ersatzrouters behoben werden. Durch das Monitoring kann man auch noch im November feststellen, wann genau der Ausfall war.

Aktuell ist allerdings noch keine Temperatur im Monitoring enthalten, sodass keine rechtzeitige Warnung erfolgen kann. Dabei handelt es ich leider im eine gößere Baustelle. Bis dahin habe ich einen zusätzlichen Lüfter montiert, der den Router runterkühlen kann.

Mein Fazit ist es, besser auf die Temperatur zu achten und solche Vorfälle zu vermeiden. Solche Vorfälle kommen meist zum falschen Zeitpunkt und verhindern die Arbeit an wichtigeren Dingen.

Nachträge

Nachtrag vom Freitag, den 13. 03. 2020

In letzter Zeit ist mein Router häufiger gecrasht. Bei einem Reboot werden alle Logs gelöscht. Ich sollte die Logs auf einem anderen Rechner speichern.

Nachtrag vom Freitag, den 20. 03. 2020

Ich habe oben Bilder eingefügt. Ihr seht den Router einmal von außen, einmal von innen und einmal mit Haji.

Außerdem erfasse ich die Router- und Access-Point-Logs jetzt mittels rsyslog auf einer extra VM. Interessant finde ich, dass sich einige Geräte via IPv4 und einige Geräte via IPv6 am rsyslog-Server melden. Die Aussagekraft der Reverse-DNS-Einträge ist leider nicht so, wie sie sein sollte. Aber das ist ein anderes Problem.

Nachtrag vom Montag, den 01. 06. 2020

Der Konsolenadapter, den ich verwendet habe, zeigte mir nur Datenmüll an. Der CH340-Chipsatz ist nicht geeignet gewesen. Ich habe jetzt einem zufälligen Hinweis gefolgt und einen Adapter mit FTDI gekauft. Der funktioniert. Nun weiß ich auch, an welchen Schritt der Router hängt:

Looking for valid bootloader image....
Jumping to start of image at address 0xbfc80000

U-Boot 1.1.1 (UBNT Build ID: 4674499-gfa58f5d) (Build time: Jun  9 2014 - 14:38:01)

BIST check passed.
UBNT_E120 r1:0, r2:16, f:8/135, serial #: f09fc21118f7
MPR 13-02044-16
Core clock: 500 MHz, DDR clock: 266 MHz (532 Mhz data rate)
DRAM:  512 MB

Leider hat ein Neubau des USB-Boot-Mediums nichts geholfen.