Dieser Post gehört zu einer Serie von Post Mortems. Dieser Text beschreibt ein Ereignis vom 24. 12. 2018, bei dem keine E-Mails versendet werden konnten. Echt der perfekte Tag für Unfälle.

Inhaltsverzeichnis

Ereignisbeschreibung:

Am 14. Dezember habe ich mein Mail Relay auf einen neuen Server verschoben. Am 24. 12. schlug das Monitoring an, dass die Festplatte fast voll ist.

Ursachenanalyse:

Postfix erzeugte binnen kürzester Zeit Log-Dateien im GB-Bereich. Ein DNS-Eintrag zeigte noch auf die Adresse des alten Mail Relays. Das neue Mail Relay versuchte daher bestimmte E-Mails an die alte IP-Adresse zu senden. Unter der alten Adresse war zwischenzeitlich kein Postfix mehr installiert, sodass alle E-Mails nur in einen Timeout liefen. Die Anzahl der in der Queue aufgelaufenen E-Mails betrug rund 80.000 Stück. Mehrere hundert andere Mails wurden ordnungsgemäß zugestellt.

Vor der Umstellung hätten alle E-Mails, die sich noch in der Warteschlange befanden, einen Bounce ausgelöst und wären aus der Queue verschwunden.

Handlungen:

Problem “Knapper Festplattenplatz”: Logdateien wurden gelöscht, z. B. /var/log/mail.info Journalctl wurde geleert journalctl –vacuum-size=10M

Problem “Fehlerhafter DNS-Eintrag”: Der DNS-Eintrag zeigt nun auf den neuen Server.

Problem “Sehr große Queue”: Die postfix queue wurde ins Monitoring aufgenommen.

Problem “Hohes E-Mailaufkommen” Durch eine ungünstige Serverkonfiguration werden E-Mails an lokale Nutzer im lokalen Netzwerk derzeit nicht ordnungsgemäß über den Postausgangsserver in extern erreichbaren Postfächern zugestellt. Sie werden zuerst an das Mail-Relay zugestellt und von dort aus gebounced.

Da minütlich im lokalen Netz ca. 15 Cronjobs laufen, entsteht eine größere Menge an nicht ordnungsgemäß zugestellten E-Mails. Zusätzlich enstehen bei einem Ausfall des Mail-Relays so schnell größere Mengen an E-Mails.

Ablauf:

ZeitpunktAktion
2018‑12‑14Das Mail-Relay wird unter eine neue IP-Adresse verschoben
2018-12-24Das Monitoring stellt fest, dass die Festplatte auf dem Gateway voll ist.
2018-12-24Bereinigung der Festplatte, Änderung DNS-Eintrag, Queue abgearbeitet

Zusammenfassung und nächste Schritte:

Das problematische Gateway wurde durch das eingerichtete Monitoring erkannt. Es zeigte auf, dass es noch weiteren Monitoringbedarf gibt, der die Ursachensuche beschleunigen kann.

Aus dem Ereignis leiten sich drei Maßnahmen ab:

  1. kurz- bis mittelfristig: Reduzierung der zu versendenden E-Mails. Die minütlich ausgeführten Cronjobs sollen maximal im Fehlerfall eine E-Mail auslösen.
  2. kurz- bis mittelfristig: E-Mails an lokale Nutzer im lokalen Netzwerk sollen durch Rewrites innerhalb von Postfix an ein exisiterendes Postfach umgeleitet werden.
  3. langfristig: Aufbau eines weiteren Mail-Relays.

Davon ist nach einem Jahr Nr. 1 schon umgesetzt. Bei Nr. 2 landet vieles jetzt nur lokal auf den Rechnern. Nr.3 ist noch gar nicht angefangen