[Fli4l_dev] OPT QOS bringt Router zum Absturz

B. Sprenger b.sprenger at sprenger-ffm.de
Sa Jan 18 18:32:53 CET 2020


Hallo,
danke für den Versuch zu helfen.

Am 17.01.2020 um 19:22 schrieb Uwe Zeppei:
>> Durch mühseliges Testen mit Versuch und Irrtum konnte ich das OPT QOS 
>> als Schuldigen ausmachen.
>> Wenn der Router mit hohem Traffic beschäftigt wird, stürzt er ab. 
>> Deaktiviere ich das OPT QOS läuft er stabil.
>> Das war jetzt auch über die letzten Updates nachvollziehbar.
>> Derzeit setze ich die r57313-testing ein.
> 
> Spricht etwas dagegen, das Opt_hwsupp zu installieren und mal mit 
> passendem Parameter (z.B. "HWSUPP_TYPE='generic-acpi-coretemp'") zu 
> betreiben? Dann sieht man, wie warm die CPU wird (sofern der Sensor 
> auslesbar ist) und auch, wieviel Last die tragen muss.

Nein, da spricht nix dagegen.
Habe eben gerade die aktuelle Version (r57598-testing) runter geladen 
und das Opt. mit installiert.
QOS ist wieder aktiv.
Router bootet  gerade.

> 
> Was für eine Hardware ist denn im Einsatz? Welche Netzwerkkarte(n)? 
> Werden auf diese Maschine VPNs betrieben, die auf dieser Maschine stark 
> ausgelastet sind?
Jawohl da sind mehrere VPN's (OpenVPN) drauf. 5 um genau zu sein, von 
denen 3 permanent aktiv sind.
Als Verschlüsselung verwende ich:
OPENVPN_CIPHER='AES-256-CBC'
OPENVPN_DIGEST='SHA512'

Die Hardware ist ein Standard-PC von der Resterampe.
Hesteller Fujitsu Esprimo (BIOS ist von 2012)
AMD Athlon II X2 220 mit 2850 MHz, 2 Kerne, 2x128 kb Cache, 2x512 kb Cache
4096 MB RAM


Als Netzwerkkarten (insgesamt sind 3 St. drin) verwende ich Realtek Karten:
NET_DRV[]='r8169'

Ich weiss das der Ruf der Karten nicht der beste ist, aber in den 
anderen Routern funktionieren die störungsfrei.


Ich glaube auch nicht, dass die Hardware sonderlich warm wird.
Die Kiste steht im Keller, da ist es gerade knapp 16 Grad.
So, Router ist wieder online.
Ich habe gerade mal ein paar grosse Dateien über VPN kopiert
Top meint dazu:
Mem: 122732K used, 3646380K free, 38028K shrd, 2536K buff, 47128K cached
CPU:  1.7% usr  1.9% sys  0.0% nic 95.1% idle  0.0% io  0.0% irq  1.2% sirq
Load average: 0.08 0.14 0.09 2/135 17973

Die CPU war mal kurz bei 2%, ich glaube das können wir vernachlässigen.
Übrigens wird coretemp anscheinend nicht unterstützt.
Im httpd sind die entsprechenden Felder leer.

Ich lass das heute Nacht mal mit QOS laufen.
Ab 23 Uhr fangen die Backups an, da wird vermutlich ein Absturz kommen.
Ich habe auch ein KVM-IP-Switch dran, so dass ich die Bildschirmausgabe 
im Blick habe.
Vielleicht gibt es da ja einen Hinweis.




> 
> Besteht zwischen dem anfälligen Router und den laufenden ein Unterschied 
> an entscheidender Stelle, z.B. Netzteil, Kühlung, etc.?
Nein eigentlich nicht.
Das sind alles PC's mit ähnlicher Leistungsfähigkeit.
Alle stehen jeweils im Keller.
Einer davon sogar in einem deutliche wärmeren Keller.
Ich versuche immer die Hardware a allen Standorten gleich bzw. ähnlich 
zu halten um meinen Support-Aufwand erträglich zu halten.
Da sind also auch immer Realtek Karten drin.
Eventuelle onboard-Lan Anschlüsse bleiben ungenutzt.

Und wie bereits gesagt. Bei den ersten Abstürzen bin ich von einem 
Hardware Defekt ausgegangen und habe die Hardware komplett erneuert. Der 
Fehler ist geblieben, da ist also die Wahrscheinlichkeit für einen 
Hardwaredefekt ziemlich gering.
Es muss irgend etwas mit der Konfiguration zu tun haben, mir fällt aber 
nichts ein was da zu den "Kollegenroutern" bedeutend anders wäre.
Natürlich gibt es Unterschiede.
Auf dem einen Router läuft ein igmp Proxy.
Der lief bei dem abstürzenden Router aber bis vor kurzem auch. 
Mittlerweile ist er deaktiviert.
Auf dem dem dritten Router läuft kein igmp.

Die Bandbreite der Anschlüsse ist geringfügig unterschiedlich, aber das 
habe ich in der QOS-Konfiguration entsprechend berücksichtigt.


Ich werd' morgen von der Nacht berichten
LG
Boris



Mehr Informationen über die Mailingliste Fli4l_dev