[Eisfair] Problem mit Softraid oder ist es ein HW Problem?

Do Mai 18 23:54:38 CEST 2017

Hallo zusammen,
bei mir steigt ein Softraid "Raid5" auf eine Maschine, die 24/7 läuft 
immer wieder aus. Das ganze läuft auf einem eis-ng, aber meine Fragen 
sind wohl eher allgemeiner Natur. Ich weiß nicht genau, wie ich das 
Problem eingrenzen kann. Mein Gefühl sagt mir, dass ich irgend ein HW 
Problem habe, aber EDV und Gefühle ihr kennt das ja ;)

In den Smart Daten sehe ich nicht wirklich etwas auffälliges, was aber 
auch nicht wirklich etwas aussagt. Ich verstehe vieles von dem was dort 
drin steht nicht und die Datenmenge dort ist ja auch nicht ganz klein.
(deshalb möchte ich das ganze hier nicht so ungefiltert posten)
Vielleicht kann mir da ja jemand von euch helfen.
Ich weiß nicht genau was ich abfragen muss und was weiterhelfen könnte.

Was mich nun massiv stört, ist dass die Abstände immer kürzer werden. 
Passierte es zu Anfang immer nur alle paar Monate, tritt es jetzt schon 
alle 2-3 Wochen auf.

Hier ein Beispiel wie ich das ganze im Fehlerfall dann wieder zu laufen 
bringe:

-->
reboot

mdadm --stop /dev/md0
mdadm: stopped /dev/md0

#### Hier war md0 schon gestoppt ####

xen-cel [~]# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md3 : inactive sdc4[1](S) sde4[4](S) sdd4[2](S) sdb4[0](S)
       1953043972 blocks super 1.2

md2 : active raid5 sde3[4] sdd3[2] sdb3[0]
       1464734208 blocks super 1.2 level 5, 512k chunk, algorithm 2 
[4/3] [U_UU]
       bitmap: 0/4 pages [0KB], 65536KB chunk

md1 : inactive sdc2[1](S) sde2[4](S) sdd2[2](S) sdb2[0](S)
       1952979712 blocks super 1.2

unused devices: <none>

#### Hier geht es jetzt weiter mit md1 ####

mdadm --stop /dev/md1
mdadm: stopped /dev/md1
xen-cel [~]# mdadm -A --force /dev/md1 /dev/sd[bcde]2
mdadm: forcing event count in /dev/sdd2(2) from 1110 upto 1126
mdadm: forcing event count in /dev/sde2(3) from 1110 upto 1126
mdadm: clearing FAULTY flag for device 2 in /dev/md1 for /dev/sdd2
mdadm: clearing FAULTY flag for device 3 in /dev/md1 for /dev/sde2
mdadm: Marking array /dev/md1 as 'clean'
mdadm: /dev/md1 has been started with 4 drives.
xen-cel [~]# mdadm --stop /dev/md2
mdadm: stopped /dev/md2
xen-cel [~]# mdadm -A --force /dev/md2 /dev/sd[bcde]3
mdadm: clearing FAULTY flag for device 2 in /dev/md2 for /dev/sdd3
mdadm: clearing FAULTY flag for device 3 in /dev/md2 for /dev/sde3
mdadm: Marking array /dev/md2 as 'clean'
mdadm: /dev/md2 has been started with 4 drives.
xen-cel [~]# mdadm --stop /dev/md3
mdadm: stopped /dev/md3
xen-cel [~]# mdadm -A --force /dev/md3 /dev/sd[bcde]4
mdadm: forcing event count in /dev/sdd4(2) from 1415 upto 1419
mdadm: forcing event count in /dev/sde4(3) from 1415 upto 1419
mdadm: clearing FAULTY flag for device 2 in /dev/md3 for /dev/sdd4
mdadm: clearing FAULTY flag for device 3 in /dev/md3 for /dev/sde4
mdadm: Marking array /dev/md3 as 'clean'
mdadm: /dev/md3 has been started with 4 drives.
xen-cel [~]# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md3 : active raid5 sdb4[0] sde4[4] sdd4[2] sdc4[1]
       1464781824 blocks super 1.2 level 5, 512k chunk, algorithm 2 
[4/4] [UUUU]
       bitmap: 0/4 pages [0KB], 65536KB chunk

md2 : active raid5 sdb3[0] sde3[4] sdd3[2] sdc3[1]
       1464734208 blocks super 1.2 level 5, 512k chunk, algorithm 2 
[4/4] [UUUU]
       bitmap: 0/4 pages [0KB], 65536KB chunk

md1 : active raid5 sdb2[0] sde2[4] sdd2[2] sdc2[1]
       1464734208 blocks super 1.2 level 5, 512k chunk, algorithm 2 
[4/4] [UUUU]
       bitmap: 0/4 pages [0KB], 65536KB chunk

md0 : active raid5 sdb1[0] sde1[4] sdd1[2] sdc1[1]
       1464709632 blocks super 1.2 level 5, 512k chunk, algorithm 2 
[4/4] [UUUU]
       bitmap: 0/4 pages [0KB], 65536KB chunk

unused devices: <none>

<--

Heute waren nur md0 und md1 betroffen, ich hatte es aber auch schon das 
alle 4 betroffen waren. Aber die Vorgehensweise ist immer die selbe.

Danke schon mal für's lesen!

-- 
Gruß,
Helmut