Fórum Ubuntu CZ/SK
Ostatní => Ubuntu Server => Téma založeno: raid 15 Ledna 2014, 00:25:13
-
Ahoj všem,
než tu začnu postovat výsledky různých příkazů, mám 3 dotazy:
1) Pokud na základě toho co píšu, půjde dát dohromady ten raid, tak by to bylo úplně ideální, když zjistím jak. Už to googlím asi 14 dní v kuse a pořád neustále narážím na to stejné. Nesmířím se s myšlenkou, že by bylo takzvaně po všem a že ta data z raidu ještě získám.
2) Pokud se mi nepodaří sestavit raid 5, chci alespoň vytáhnout data z jednotlivých disků. Myslíte, že by to nějak šlo?
3) Další věc, pokud se ukáže jeden z disků jako nějak vadný (ačkoliv je všechny vidím přes fdisk), myslíte, že by to šlo třeba DDčkem přehodit z jednoho disku na druhý a tím pádem pak zkusit disk zapojit?
Teď to jak k tomu došlo. Prosím, neukamenujte mě, vím že jsem to fenomenálně pos*** a že si za to defakto můžu sám, uvědomuju si, jak jsem to podělal, problém je, že teď potřebuju přijít, jak z toho ven, proto prosím, ať se tu nerozjede flame a případně moderátory poprosím, ať automaticky mažou trolly bez vyzvání. Děkuji.
Měl jsem datastore na intel atomu a 3 discích 3x 500 GB v raidu 5. Na silvestra kouknu a vidím, že
v cat /proc/mdstat vidím jen 2 disky ze 3 online.
V tu chvíli jsem měl začít rychle kopírovat data někam jinam a pak teprve provést restart. Já vůl tu mašinu dal místo toho restartovat a ještě naivně jsem si myslel, že došlo k nějaké chybce, ani jsem nad tím nepřemýšlel, vůbec jsem si nic nepřipouštěl. Určitě ten pocit bezpečí znáte.
No takže jsem dal restart a co se stalo, stroj už nenaběhl. Vypisovalo to nějakej kernel panic, jakej jsem v životě neviděl. Google mi našel jednu jedinou diskusi, kde se to někomu přihodilo taky, samozřejmě frajerovi řekli, že se s takovou chybou nikdy nikdo nesetkal a tím se topic uzavřel.
Mimochodem mi to vypsalo tohle:
[ 1.451502] No filesystem could mount root, tried:
[ 1.451509] Kernel panic - not syncing: VFS: Unable to mount root fs on unknown-block(0,0)
[ 1.451522] Pid: 1, comm: swapper/0 Not tainted 3.2.0-4-686-pae #1 Debian 3.2.46-1
[ 1.451530] Call Trace:
[ 1.451543] [<c12becb0>] ? panic+0x4d/0x141
[ 1.451551] [<c1419aa4>] ? mount_block_root+0x1e2/0x203
[ 1.451561] [<c1002930>] ? hypercall_page+0x930/0x1000
[ 1.451567] [<c1419afe>] ? mount_root+0x39/0x4d
[ 1.451576] [<c1419c20>] ? prepare_namespace+0x10e/0x13e
[ 1.451583] [<c1419829>] ? kernel_init+0x12c/0x131
[ 1.451592] [<c14196fd>] ? start_kernel+0x32a/0x32a
[ 1.451598] [<c12c84fe>] ? kernel_thread_helper+0x6/0x10
Než mi začnete nadávat, co sem cpu debian, tak bych jen rád poznamenal, že ubuntu vyšlo z debianu a kdykoliv jsem měl nějaký problém na debianu, tak jsem se stejně dogooglil sem na ubuntu, kde se mi podařilo problém vyřešit. Taky tím, že to hážu sem se snažím maximalizovat svojí šanci, že se fakt najde nějaká hodná duše, která udělá dobrou reklamu ubuntu forum, tak jak neustále vídám a prostě mi aspoň zkusí pomoct. Budu moc vděčný za jakékoliv rady.
Potom, co jsem zjistil, že takhle to teda nerozběhám, tak jsem nabootoval Lubuntu linux x86 13.10
viz cat /etc/issue Ubuntu 13.10 \n \l
(železo je atom d270).
Při zadání příkazu :
mdadm --assemble --run --force /dev/md0 /dev/sda1 /dev/sdc1 /dev/sdb1
mi to vypíše:
mdadm: /dev/sda1 is busy - skipping
mdadm: /dev/sdc1 is busy - skipping
mdadm: no recogniseable superblock on /dev/sdb1
mdadm: /dev/sdb1 has no superblock - assembly aborted
mdadm --examine /dev/sda1
/dev/sda1:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x0
Array UUID : 04899ab3:c55c110e:92181542:71ed1fd8
Name : datastore:0
Creation Time : Tue Jan 15 17:00:47 2013
Raid Level : raid5
Raid Devices : 3
Avail Dev Size : 976766976 (465.76 GiB 500.10 GB)
Array Size : 976763904 (931.51 GiB 1000.21 GB)
Used Dev Size : 976763904 (465.76 GiB 500.10 GB)
Data Offset : 2048 sectors
Super Offset : 8 sectors
State : active
Device UUID : 96318c6e:06fb000b:ffea2330:30be71fe
Update Time : Sun Oct 6 07:06:06 2013
Checksum : 183b91f2 - correct
Events : 18726
Layout : left-symmetric
Chunk Size : 512K
Device Role : Active device 2
Array State : AAA ('A' == active, '.' == missing)
Příkaz:
mdadm --examine /dev/sdb vypíše:
/dev/sdb:
MBR Magic : aa55
Partition[0] : 976769024 sectors at 2048 (type fd)
dále
mdadm --examine /dev/sdb1
mdadm: No md superblock detected on /dev/sdb1.
a
mdadm --examine /dev/sdc1
/dev/sdc1:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x0
Array UUID : 04899ab3:c55c110e:92181542:71ed1fd8
Name : datastore:0
Creation Time : Tue Jan 15 17:00:47 2013
Raid Level : raid5
Raid Devices : 3
Avail Dev Size : 976764928 (465.76 GiB 500.10 GB)
Array Size : 976763904 (931.51 GiB 1000.21 GB)
Used Dev Size : 976763904 (465.76 GiB 500.10 GB)
Data Offset : 2048 sectors
Super Offset : 8 sectors
State : clean
Device UUID : c5bf7673:49f26ee2:ef3d46bd:c8c370a1
Update Time : Tue Dec 31 14:48:43 2013
Checksum : 254ac7ad - correct
Events : 2279230
Layout : left-symmetric
Chunk Size : 512K
Device Role : Active device 1
Array State : AA. ('A' == active, '.' == missing)
příkaz:
mdadm --detail /dev/md0
mdadm: cannot open /dev/md0: No such file or directory
Samozřejmě všem na všech forech, která jsem prolezl stačí napsat ten příkaz na assemble a najednou jim všechno zázračně funguje. Když řeším ten superblock, tak se nestíhám divit, co si to tam frajeři cpou za hloupé rady a na wiki pro mdadm nechci vyčerpat tu poslední možnost, která je tam uvedena a to sice "--create --assume-clean".
tady je ten link kde jsem strávil taky nemálo času. https://raid.wiki.kernel.org/index.php/RAID_Recovery
Jestli se tu objeví nějaký frajer, který tomu rozumí, nechám si klidně nasypat tolika popele na hlavu, kolik bude jenom potřeba, hlavně ať se nám prosím společnými silami nějak podaří dát dohromady ten raid.
V prvé řadě bych měl asi vyřešit ten missing superblock na /dev/sdb1
Až vyřeším superblock na /dev/sdb1 tak potřebuju vyřešit to device or resource is busy abych mohl složit raid alespoň ze 2 disků a pak z toho jenom vytáhnu data a budu spokojen.
<- proto tyto 2 body už fakt vzdávám bez cizí pomoci, protože fakt nevím, jak to vyřešit. Můžem se klidně dohodnout a já vám klidně hodím usera s root pravomocema na dálku, je to za veřejnou ip za určitým portem. Stejně nemám co ztratit, takže pokud se Vám to bude zdát se mnou na dlouho, tak fakt bude nejlepší zapůjčení nějakého loginu s heslem.
Pokud se to povede, od té doby udělám 3 rozhodnutí:
1) Už nikdy ne RAID 5 ale RAID 6
2) 2 datastory a ne jenom jeden, které se budou synchronizovat mezi sebou, ikdyby se mi jeden z nich rozsypal, tak už to prostě neřeším, protože mám druhý.
3) Kdykoliv nastane jakýkoliv drobný problém, kopíruju obsah raidu bez vyzvání pryč a pak teprve budu řešit výpadek s klidným pocitem, že mám data v suchu.
FDISK v příloze
[příloha smazaná administrátorem]
-
ja se jen neprestanu divit tem proklamacim, jak lidi 14 dnu gugli a resi to a jak nic nenachazi ..
co po rebootu vypise `cat /proc/mdstat' ? a `dmesg | grep md' ?
-
Ahoj,
díky za odpověď. Taky jsem se normálně díval v minulosti na ty "zoufalce", kteří se neobtěžovali s googlením a pak to tam vypisovali a taky jsem měl úplně stejnej názor na to jako ty. Jenže já neustále bloudím v kruhu a to je to, proč je mi už googlení na nic. Další důvod je ten, že čím víc čtu o rozsypanejch raidech, tak zjišťuji, že na raidu se může rozsypat tolik věcí, že kdykoliv někomu radili, tak mu ve skutečnosti radili na úplně jinej problém, kterej se u něj tváří velmi podobně, jako u mě, ale ve skutečnosti v tu danou chvíli jsem se vždycky progooglil k jinému problému, kde vždy zabralo něco jiného, než u mě a cokoliv jsem dělal, tak vždycky totálně bez výsledku. Proto jsem rád, že ačkoliv máš trošku možná odstup, jsem moc rád za tvoji pomoc a chci ti poděkovat. Současně dlužím omluvu za tyhle 2 příkazy, které jsem tam automaticky nedal, mohl jsem tam dát aspoň ten cat /proc/mdstat, ačkoliv mi nic nevypisoval. Musím dodat, že googlení mě tentokrát slepě dostalo spíš k horším výsledkům. Předtím se mi aspoň podařilo poskládat degradovanej raid s tím /dev/sdb1 a ty 2 zbylé disky psaly device or resource is busy. Samozřejmě já vůl při té zoufalosti pak ještě musím odrovnat ten disk /dev/sdb1, kterej teď nemá superblock, takže se mi už neposkládá ani ten md0, ikdyž třeba jen v degradovaném nespustitelném režimu. (což je asi jedinej nepřímej důkaz toho, že čím víc v tomto případě googlím, tím horší si to dělám a fakt po těch 14 dnech, kdy po večerech jak mi zbyde čas, tak nad tím googlím a snažím se najít nějaké řešení, tak už to prostě vzdávám a odhodlal jsem se to sem napsat.) Taky jsem zkoušel vyměnit sata káblíky, jestli to třeba nedělaj, taky bez výsledku. Takhle radili zase na jiném foru, což dokazuje uptime stroje (že není 14 dní ale jen 6 dní, kdy jsem to vypínal kvůli těm káblíkům), kterej je teď 6 dní s nabootovanou flashkou s Lubuntu linuxem 13.10. Lepší důkaz nemám, omlouvám se, že ti to nemohu nijak jinak prokázat.
uptime
08:35:28 up 6 days, 8:59, 10 users, load average: 0,00, 0,01, 0,05
Toho 10 users se neděs, mám tam GUI a v něm jsem si prvně rozjížděl pár terminálů, protože jsem k tomu stroji nepřipojil myš a abych nahnal čas, tak jsem si pootvíral víc terminálů v GUIčku abych tam nainstaloval openssh-server a všechny věci ohledně raidu, teď už jsem připojenej z jiného stroje přes ssh.
cat /proc/mdstat
Personalities :
unused devices: <none>
dmesg | grep md
[ 10.746400] ata1: PATA max UDMA/100 cmd 0x1f0 ctl 0x3f6 bmdma 0xf000 irq 14
[ 10.746411] ata2: PATA max UDMA/100 cmd 0x170 ctl 0x376 bmdma 0xf008 irq 15
[ 10.749812] ata3: SATA max UDMA/133 cmd 0xd400 ctl 0xd800 bmdma 0xe400 irq 19
[ 10.749821] ata4: SATA max UDMA/133 cmd 0xdc00 ctl 0xe000 bmdma 0xe408 irq 19
[ 16.056182] ata1.01: qc timeout (cmd 0xec)
[ 36.392044] ata1.01: qc timeout (cmd 0xec)
[ 76.728047] ata1.01: qc timeout (cmd 0xec)
[ 87.109224] systemd-udevd[106]: starting version 204
[ 112.084367] systemd-udevd[1150]: starting version 204
[ 3202.660443] md: md0 stopped.
[ 3294.685313] md: md0 stopped.
-
1) Kdo dělá RAID5 bez spare disku bohužel často špatně dopadne
2) I se dvěma diskama by RAID5 měl najet, byť degradovaně.
Odpoj úplně ten mrtvej disk, ať tam nedělá paseku.
Co udělá
sudo mdadm --detail --scan
-
Ahoj,
mdadm --detail --scan
neudělá vůbec nic.
Kterej mrtvej z těch disků máš na mysli? Protože jak můžeš vidět, tak /dev/sda1 má Events : 18726
Takže není sesynchronizovanej se zbytkem. Kdežto /dev/sdb1 měl stejně events jako /dev/sdc1, takže teď musíme prvně rozběhat /dev/sdb1 a pak to teprve dostat do jednoho degradovanýho raidu s /dev/sdc1 a /dev/sdb1 nemám pravdu?
ad 1) Ono i se spare diskem mi dochází, že je raid 5 k ničemu. Při resynchronizaci narazíš na vadný sektory, nebo se rozsype jinej disk a je konec. Fakt už jen raid6, tam ti to při výpadku jednoho disku ještě druhej výpadek disku ustane.
ad 2) Jo, najede, jen nevím jak dořešit ten vadnej superblock na /dev/sdb1 a device or resource is busy u /dev/sdc1 kdykoliv se to tam snažím poskládat do raidu.
-
Aha, já blbě četl a myslel, žes odstranil superblock na tom disku, který je vyřazený z raidu.
mdadm --assemble /dev/md0 --uuid=04899ab3:c55c110e:92181542:71ed1fd8
Pokud to selže, pak bych to viděl na to, že je potřeba
1) odstranit superblock na těch dvou OK discích úplně - mdadm --zero-superblock /dev/sd[X] (tím se odstraní informace o přiřazení k raidu - device or resource busy, protože si chudák myslí, že už ten HDD v nějakém poli je)
2) Vytvořit znova RAID5 s jedním chybějícím HDD (missing místo identifikace třetího disku) + parametrem --assume-clean (tím se vyhneme resyncu při vytvoření)
Pak by mohl RAID najet. Mimochodem, udělal bych si dd obraz těch zdravých disků, dokud tam data ještě jsou ...
PS: Proč namísto RAID6 neuvažovat o RAID10?
-
Díky moc za všechny rady, jestli mohu věřit, že mi někdo dokáže dát ty správné rady, pak jsi to ty.
Ten příkaz, co jsi psal, taky úplně bez reakce. Prostě napíšu příkaz, dám enter a nic. cat /proc/mdstat vypadá stále stejně, ani to nevyhodí žádnou hlášku v odpovědi.
ad 1) Díky za vysvětlení, tohle jsem fakt potřeboval vysvětlit od někoho, kdo tomu opravdu rozumí jeho vlastníma slovama a ne jenom slepě googlit po googlu, jak jsem to dělal doteď.
Když ten superblock chci odstranit, píše to:
mdadm: Couldn't open /dev/sda for write - not zeroing
mdadm: Couldn't open /dev/sdc for write - not zeroing
u dev sdb to píše:
mdadm: Unrecognised md component device - /dev/sdb
ad 2) Když vyřešíme ten vadný nebo divný superblock na /dev/sdb1 tak věřím, že to snad půjde, pokud to nebude psát že to nelze otevřít pro zápis jako v bodě 1.
Ten dd je hodně dobrej nápad, právě to sypu na jinej stroj dle tohoto návodu:
http://www.pantz.org/software/dd/drivecopywithsshanddd.html
Ten raid 10 je sice dobrá myšlenka, má ale pro mě fakt smysl? U raid 10 musí vypadnout ty 2 správné disky, kdežto u RAID 6 je jedno který z těch 4 mi vypadne. Já na tom datastoru nepotřebuju zas tolik výkonu, jsem ochotnej obětovat klidně i 90% výkonu jen abych měl data ve větším bezpečí, než teď. Pokud je ale nějaká výhoda raid 10, o které třeba nevím a nedogooglil jsem se ji, tak se nechám rád "překecat" k použití raid 10 příště. Na druhou stranu, pokud nejsem schopnej bez cizí pomoci dát dohromady rozsypanej raid 5, nedovedu si představit, jak bych potom bojoval, až by se mi rozsypala právě raid 10?
Jakmile doDDčkuju disky (což bude trvat hodně dlouho, když mám 3x 500GB) , tak mi popravdě dloube hlavou, jak se dostanu přes ten vadnej superblock.
Pro jistotu přikládám výpis z příkazu lsmod:
lsmod
Module Size Used by
ipt_MASQUERADE 12760 3
iptable_nat 12867 1
nf_nat_ipv4 13095 1 iptable_nat
nf_nat 25588 3 ipt_MASQUERADE,nf_nat_ipv4,iptable_nat
nf_conntrack_ipv4 14492 2
nf_defrag_ipv4 12649 1 nf_conntrack_ipv4
xt_conntrack 12664 1
nf_conntrack 82912 6 ipt_MASQUERADE,nf_nat,nf_nat_ipv4,xt_conntrack,iptable_nat,nf_conntrack_ipv4
ipt_REJECT 12485 2
xt_CHECKSUM 12493 1
iptable_mangle 12615 1
xt_tcpudp 12756 5
bridge 90467 0
stp 12848 1 bridge
llc 14160 2 stp,bridge
ip6table_filter 12711 0
ip6_tables 17819 1 ip6table_filter
iptable_filter 12706 1
ip_tables 17987 3 iptable_filter,iptable_mangle,iptable_nat
ebtable_nat 12695 0
ebtables 21446 1 ebtable_nat
x_tables 22067 11 ip6table_filter,xt_CHECKSUM,ip_tables,xt_tcpudp,ipt_MASQUERADE,xt_conntrack,iptable_filter,ebtables,ipt_REJECT,iptable_mangle,ip6_tables
zram 18070 2
dm_crypt 22280 0
coretemp 13195 0
gpio_ich 13229 0
joydev 17097 0
dm_multipath 22402 0
scsi_dh 14458 1 dm_multipath
parport_pc 31981 0
microcode 18830 0
ppdev 17391 0
lp 13299 0
parport 40795 3 lp,ppdev,parport_pc
serio_raw 13189 0
bnep 18893 2
lpc_ich 16864 0
rfcomm 53664 0
bluetooth 323534 10 bnep,rfcomm
mac_hid 13037 0
squashfs 46391 1
overlayfs 27158 1
nls_utf8 12493 1
isofs 39211 1
nls_iso8859_1 12617 1
jfs 169886 0
xfs 788564 0
libcrc32c 12543 1 xfs
reiserfs 224791 0
dm_mirror 21715 0
dm_region_hash 15984 1 dm_mirror
dm_log 18072 2 dm_region_hash,dm_mirror
hid_generic 12492 0
usbhid 47361 0
hid 87192 2 hid_generic,usbhid
i915 589697 2
e1000 128369 0
usb_storage 48294 1
video 18777 1 i915
i2c_algo_bit 13197 1 i915
drm_kms_helper 46867 1 i915
drm 242354 3 i915,drm_kms_helper
edit: Tak jsem si všiml, že mi tam chybí raid456 modul, tak jsem dal modprobe raid456
Počkám si stejně, než doDDčkuju a pak zkusím tvoje rady s odděláním těch superblocků a sestavení nového pole.
Jenom taková otázka, jak poznám, v jakém režimu a s jakými parametry jsem to sestavoval minule? Protože bych byl vcelku nerad, kdyby jsem to předtím sestavoval s nějakými parametry a teď bych to náhodou sestavoval s jinými, abych nic nepokazil.
-
V každém případě počkej na to dd, ať se máš k čemu vrátit.
Pokud to neudělalo nic, nebude umět to pole sestavit ani do degradovaného režimu (nenajde dostatečný počet nodů), víc by se našlo ve /var/log/syslog
Ještě jsem to blbě napsal, superblock je uložený pro každou partition, která tvoří část pole, takže např.
mdadm --zero-superblock /dev/sda1
Pokud i tehdy ten disk bude locknutý, pak je několik možností, proč to drbe.
1) Fakeraid na desce lockne ten disk - v BIOSu mrknut na to, zda náhodou není zapnutý raid mód, pokud je, vypnout
2) Disk si ukradl device-mapper (ono to vlastně souvisí s fakeraidem), zkus
dmsetup ls
Pokud to vypíše zařízení (tvůj disk), pak
dmsetup remove to_vypsane_zarizeni
3) Disk si uzmul dmraid, ve výpisu ho nevidím, ale přesto stojí za pokus nabootovat s nodmraid v grubu
Co se týče RAID6 x RAID10, tak u 6 bude rychlost čtení +- jak u 5, ale krutě degradovaný zápis (musí rozpočítávat paritu mezi více HDD), oproti tomu 10 je prostě rychlá. Data jsou napřed nazrcadlena (nepočítá se parita, jen se tupě zapíše na dva HDD současně to samé) a pak teprve je vytvořena RAID0 (opět bez parity). Aby se to polámalo neodvratně, musely by odejít dva HDD ve stejné větvi. Nakonec degradovaný režim je od toho, aby správce co nejrychleji zasáhl a disk vyměnil, ne? A i tehdy se hezky dá minimalizovat riziko za použití spare disku ...
Že by zdechly dva(tři se spare) disky v rozmezí řekněme pár dnů ... ?
Jo ještě: ten disk, co je zdechlej a byl jako první vyřazenej z pole je zbytečné hnát přes dd.
Obsahuje stará data, blbou paritu. A krom toho bys zbytečně čekal na mrtvých sektorech.
Tenhle disk prostě úplně fyzicky odpoj.
Ad parametry:
mdadm --examine /dev/sdc1
/dev/sdc1:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x0
Array UUID : 04899ab3:c55c110e:92181542:71ed1fd8
Name : datastore:0
Creation Time : Tue Jan 15 17:00:47 2013
Raid Level : raid5
Raid Devices : 3
Avail Dev Size : 976764928 (465.76 GiB 500.10 GB)
Array Size : 976763904 (931.51 GiB 1000.21 GB)
Used Dev Size : 976763904 (465.76 GiB 500.10 GB)
Data Offset : 2048 sectors
Super Offset : 8 sectors
State : clean
Device UUID : c5bf7673:49f26ee2:ef3d46bd:c8c370a1
Ale nevidím žádné "fičury", takže to bude vše v default.
-
Díky moc za info, stále dělám DD. Jde to šíleně pomalu, takže to bude pár hodin trvat.
Nemyslel jsi odpojit /dev/sda namísto /dev/sdc?
Mrkni prosím na položku events, která je v /dev/sda menší než v /dev/sdc:
dev/sda Events : 18726
dev/sdc Events : 2279230
-
???? proc delas dd .. proc proste nevytahnes ta data z dev/sda1 normalne ? k cemu ti je dd ??? pokud se potrebujes dostat ke svejm datum tak jednoduse muzes pripojit jen jednu pulku mirroru .. ja jsem si do tohodle threadu zakazal prispivat protoze, protoze pokud nekdo neni schopen managovat svuj raid tak ho nema pouzivat ..
proste pripoj tu cast mirroru o ktere jsi si jist, ze jsou na ni posledni data, potom tam prihod do raid1 tu druhou pulku a nech to syncnout
taky nechapu, proc u tebe vystup z --examine neukazuje veci jako crc a update time ? tos jako nedal celej ten vystup ?
# mdadm --examine /dev/sdc1 /dev/sdd1
/dev/sdc1:
Magic : a92b4efc
Version : 0.90.00
UUID : 7d2befc4:a4f37491:7012a1f4:1ab82073 (local to host linux-1unw)
Creation Time : Tue Mar 6 04:24:14 2012
Raid Level : raid1
Used Dev Size : 488383936 (465.76 GiB 500.11 GB)
Array Size : 488383936 (465.76 GiB 500.11 GB)
Raid Devices : 2
Total Devices : 2
Preferred Minor : 0
Update Time : Thu Jan 16 16:58:16 2014
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
Checksum : 162a2c3a - correct
Events : 6653283
Number Major Minor RaidDevice State
this 0 8 33 0 active sync /dev/sdc1
0 0 8 33 0 active sync /dev/sdc1
1 1 8 49 1 active sync /dev/sdd1
/dev/sdd1:
Magic : a92b4efc
Version : 0.90.00
UUID : 7d2befc4:a4f37491:7012a1f4:1ab82073 (local to host linux-1unw)
Creation Time : Tue Mar 6 04:24:14 2012
Raid Level : raid1
Used Dev Size : 488383936 (465.76 GiB 500.11 GB)
Array Size : 488383936 (465.76 GiB 500.11 GB)
Raid Devices : 2
Total Devices : 2
Preferred Minor : 0
Update Time : Thu Jan 16 16:58:16 2014
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
Checksum : 162a2c4c - correct
Events : 6653283
Number Major Minor RaidDevice State
this 1 8 49 1 active sync /dev/sdd1
0 0 8 33 0 active sync /dev/sdc1
1 1 8 49 1 active sync /dev/sdd1
-
Problém je, že nemá mirror, ale RAID5, navíc mrtvej jeden disk a odstraněnej superblock z druhýho (tedy má jen třetí zdravej).
U RAID5 (a oprav mne, pokud se pletu) nejsou celá data na jednotlivých discích, ale jen jejich části a parita ...
@raid: myslel jsem tenhle disk:
Měl jsem datastore na intel atomu a 3 discích 3x 500 GB v raidu 5. Na silvestra kouknu a vidím, že
v cat /proc/mdstat vidím jen 2 disky ze 3 online.
Ten co NEBYL online.
-
Ahoj,
prvně Vám oběma chci moc poděkovat, že jste se takhle pustili do řešení mého problému.
to ntz_reloaded: Moment moment...Teď jsi mě dokonale zmátl.
Po přečtení tvého příspěvku jsem fakt ochotnej věřit, že mi tady napsala hodně velká kapacita, hodně velkej geek a machr přes linux naprosto luxusní rady jak z toho ven. Má to svoje ale. A já je tu raději připomenu, protože tohle bych rád, aby mi někdo vysvětlil. Velikost toho RAID 5 pole ve 3 discích je 1TB - tedy nějakejch 916GB +- jak to tak bývá. RAID 1 má velikost jako 1 disk, tedy nějakejch 500 GB. To jde bez ztráty dat připojit do raid 1 dva stejné 500gigové disky anižbych o nic nepřišel? Jo počkej! Už tě asi chápu! Jakože každej z těch disků si připojím do degradovanýho raidu 1 zvlášť takže si udělám /dev/md0 md1 a md2 a takhle bych z nich mohl vycucnout data? WOW! To fakt takhle jde? To se nemůže nic podělat? Co jiné rozdělení paritních informací? Jestli jo, tak jsi absolutní genius. Fakt by mě zajímalo, kde jsi tuhle radu, trik získal, protože to chci umět taky.
A raid se nikdy nenaučím používat pořádně, dokud na takovéto situace nenarazím a nenaučím se je ať už sám, nebo s nějakým takovým masterem jako jste vy 2, prostě vyřešit. Díky moc za rady.
Ve výpisech jsem vždycky vyplivnul úplně všecho, co mi to vypsalo.
Ale jestli jsi si všiml toho všeho co tam chybí a mě to tam normálně nic takového neuvádí, kde může být problém? Jinak dd dělám proto, aby kdybych něco podělal, abych se měl k čemu vrátit. Já vím, že ty bys to určitě zvládl levou zadní, jenže tu teďka nesedíš na mé židli a nemám tě tu ani někde po ruce, aby jsi dokázal sebehorší situaci zachránit. Myslím si, že ten Petr v předchozích odpovědích mi z hlediska bezpečnosti fakt radil dobře. Když i ty sám ses divil, že mě to nevypisuje ani pořádné výpisy, ačkoliv sem vložím úplně všechno co jde, tak ruku na srdce, že ten systém se asi nechová normálně a můžem od toho systému očekávat kudlu v zádech. Mám pravdu? (pokud ne, rád si nechám vysvětlit proč).
To by bylo ale fakt poprvé, kdy jsem slyšel, že by fungovalo něco jako "vezmi disk z raidu 5 a nahoď ho do nového raidu 1 v degradovaném režimu a jenom vesele vytáhneš data".
to Petr: Ten co nebyl online je /dev/sda - odpojím ho, jakmile doddčkuju. Dá se nějak odpojit softwarově za chodu, tak abych ho neviděl ani fdisk -l ? Ale víš co? Proč nezkusit namapovat do degradovaného raidu 1 aspoň ten /dev/sda1, kterej byl stejně špatnej už předtím, respektive ho pole z nějakého mě neznámého důvodu oddělalo a přesvědčit se tak, jestli má ntz_reloaded pravdu? Popravdě, když však vidím -65534 u jeho fotky, tak né že bych předsuzoval, to vůbec ne, ale řekněme, že mě to trošičku znepokojuje, doufám a předpokládám, že si to nevezme ntz nijak zle, ale naopak že je na to asi náležitě pyšný, protože kdyby totiž chtěl, tak už tu je dávno s novým profilem s "čistou karmou". Zanechme prosím však nějakého mého zjištění cizí karmy, zaměřme se prosím na řešení problému.
-
V žádném případě nepřipojuj sda1 zpět do pole.
Od té chvíle, co ho pole vyplivlo obsahuje stará data, starou paritu, možná bys získal strukturu souborů, ale obsah by byl totálně nesmyslný, relativně nahodile složený z obsahu ostatních souborů.
RAID 1 je zrcadlo, nepočítá žádnou paritu, nic takového, je to jen tupý nástroj, jak nakopírovat zároveň jedny data na dva disky. RAID5 oproti tomu není (jak by se snad mohlo zdát) RAID1+parita právě na jednom HDD, ale rovnoměrně rozložená data a parita na 3 discích, přičemž právě libovolné dva každé dokáží rekonstruovat pole.
AFAIK z jednoho člena RAID5 prostě data nedostaneš.
PS: http://cs.wikipedia.org/wiki/RAID#RAID_5
Mimochodem, jsou tam moc hezky popsaný i ostatní typy pole
-
Ahoj,
díky za upřesnění, /dev/sda ani neDDčkuju, protože mi dochází, jak je to zbytečné.
JJ tu wikinu znám už skoro nazpaměť, je super, díky moc. :-)
sdb už má 414 GB z nějakých 478GB, takže tam to bude velmi brzo. Pak mě čeká ještě /dev/sdc, což budu dělat asi přes víkend.
Potom, až to doDDčkuju, co potom? Jak tedy prosím tě obnovím ten vadnej superblock u /dev/sdb nebo odstraním superblocky u obou, abych mohl vytvořit nové pole?
Díky moc za pomoc a rady.
-
Odstraníš oba superblocky, a vytvoříš nové pole, kouzlo je, že to provedeš s parametrem --assume-clean, takže se neprovede synchronizace a mdadm bude předpokládat, že sic degradované (missing třetí disk), pole je ok.
-
Ahoj,
tak pořád bloudím v kruhu. DoDDčkoval jsem, snažím se oddělat ten superblock.
mdadm --zero-superblock /dev/sdc1
mdadm: Couldn't open /dev/sdc1 for write - not zeroing
//já vím že /sda1 je mi u zadku mdadm --zero-superblock /dev/sda1
mdadm: Couldn't open /dev/sda1 for write - not zeroing
mdadm --zero-superblock /dev/sdb1
mdadm: Unrecognised md component device - /dev/sdb1
Prostě mě to neposlouchá. Krám blbej, začínám už bejt fakt zoufalej. Proč to prostě nemůže udělat to, co po tom přesně chci? Vždyť zadávám příkaz syntakticky správně, dávám tomu systému jasně najevo co chci aby se stalo a stejně na mě ten raid kašle.
No a potom:
mdadm --create /dev/md0 --level=5 --raid-devices=3 --assume-clean missing /dev/sdb1 /dev/sdc1
mdadm: super1.x cannot open /dev/sdc1: Device or resource busy
mdadm: /dev/sdc1 is not suitable for this array.
mdadm: create aborted
edit3:
mdadm --zero-superblock /dev/sdb
mdadm: Unrecognised md component device - /dev/sdb
mdadm --zero-superblock /dev/sdc
mdadm: Couldn't open /dev/sdc for write - not zeroing
</edit3>
Hej já už fakt nevím. Začínám toho mít plné kecky. Tady mi taky nepomohli.
http://en.wikipedia.org/wiki/Mdadm#Known_problems
A sebrat odvahu, abych si troufl zadávat příkazy ze všech různých diskusních fór, abych to pak ještě dos*** ještě víc, na to už taky nemám žaludek, fakt se nezlobte.
dmsetup table
No devices found
cat /proc/mdstat vypisuje už aspoň:
Personalities : [raid6] [raid5] [raid4]
unused devices: <none>
1) Lze prosím tě parametr "nodmraid" nějak "aktivovat" za provozu systému?
2) Nebude lepší vzít druhou flashku, na ni ze současného live lubuntu 13.10 nainstalovat prostě plnohodnotnou instalaci lubuntu 13.10 a pak to tam teprve zkusit namapovat? Tady ten live linux, já fakt nevím, jestli je to suitable for me. Na druhou stranu, když si dám nabootovat lubuntu 13.10 znovu, můžu tam dát nějak ten nodmraid parametr při spouštění? Vím že na starších verzích ubuntu a lubuntu to šlo, ale nevím jestli to funguje ještě teď. Bootuju to totiž z flashky.
Díky
edit:
ještě přikládám:
mdadm -E /dev/sdb
/dev/sdb:
MBR Magic : aa55
Partition[0] : 976769024 sectors at 2048 (type fd)
mdadm -E /dev/sdc
/dev/sdc:
MBR Magic : aa55
Partition[0] : 976766976 sectors at 2048 (type fd)
a preventivně i :
mdadm -E /dev/sda
/dev/sda:
MBR Magic : aa55
Partition[0] : 976769024 sectors at 2048 (type fd)
...ačkoliv sda nebudu potřebovat.
Dále pak:
cat /etc/mtab
/cow / overlayfs rw 0 0
proc /proc proc rw,noexec,nosuid,nodev 0 0
sysfs /sys sysfs rw,noexec,nosuid,nodev 0 0
udev /dev devtmpfs rw,mode=0755 0 0
devpts /dev/pts devpts rw,noexec,nosuid,gid=5,mode=0620 0 0
tmpfs /run tmpfs rw,noexec,nosuid,size=10%,mode=0755 0 0
/dev/sdd1 /isodevice vfat rw,relatime,fmask=0022,dmask=0022,codepage=437,iocharset=iso8859-1,shortname=mixed,errors=remount-ro 0 0
/dev/loop0 /cdrom iso9660 ro,noatime 0 0
/dev/loop1 /rofs squashfs ro,noatime 0 0
none /sys/fs/cgroup tmpfs rw 0 0
none /sys/fs/fuse/connections fusectl rw 0 0
none /sys/kernel/debug debugfs rw 0 0
none /sys/kernel/security securityfs rw 0 0
tmpfs /tmp tmpfs rw,nosuid,nodev 0 0
none /run/lock tmpfs rw,noexec,nosuid,nodev,size=5242880 0 0
none /run/shm tmpfs rw,nosuid,nodev 0 0
none /run/user tmpfs rw,noexec,nosuid,nodev,size=104857600,mode=0755 0 0
none /sys/fs/pstore pstore rw 0 0
systemd /sys/fs/cgroup/systemd cgroup rw,noexec,nosuid,nodev,none,name=systemd 0 0
gvfsd-fuse /run/user/999/gvfs fuse.gvfsd-fuse rw,nosuid,nodev,user=lubuntu 0 0
Začínám bejt z toho raidu fakt docela otrávenej. Já vím, že je to mnou a mojí vlastní neschopností, ale už se tu s tím otravuju fakt 3 tejdny a jediné, kam jsem to dotáhl je, že mám DD zálohu něčeho, co je stejně vadné... (i tak díky za tuto radu) Vidím to tak, že si normálně koupím 1x 1TB disk + si ponechám tohle pole a prostě to budu synchronizovat takhle mezi sebou, ať mám záchranu, když se něco podělá a ruku na srdce, že 2 úložiště, ikdyby to druhé měl být jen obyč 1TB disk, tak je lepší, než se spoléhat JENOM na tohle pole. U RAIDu se mi líbila myšlenka, že jestli chci mít data někde centrálně uložená v trošku spolehlivějším stavu, tak tohle bude bohatě stačit. Samozřejmě, udělal jsem tam spoustu chyb, jenže Černobyl byl ve své době taky bezpečná elektrárna a stejně to bouchlo. Proč? Protože lidský faktor. Kdykoliv se něco podělá, většinou to právě je v takto nestandardní situaci, jako v mém případě. A ruku na srdce, že kdyby to byla rutinní blbost, tak by k vyřešení tohoto topicu stačily 2 možná 3 komenty, dostal bych slovní výprask, jaká jsem lama a že neumím googlit, ale aspoň bych si vlepil facku a věděl bych, že mě tahle zkušenost někam posunula.
Takže se moc omlouvám za své zoufalé výlevy, ale tohle ze mě musí prostě ven. O to víc mě mrzí, že jsem tam měl úplně všechny fotky z dovolených, všechna videa z kamery, spoustu dokumentů, smlouvy, faktury, prostě všechno, co pro mě mělo důležitou hodnotu, abych si to tam nahrál a ostatní živáčci to skladují po externích discích. Nějakou hudbu nebo film, či zálohy nějaké databáze, to čert vem. Ani nevíte, jak je mi trapně, že jsem si to nepohlídal a ještě teď cítím tu pachuť mé debility, kdy jsem psal ono "reboot" do terminálu, když to pole ještě jelo. A ještě jak jsem se hloupě uklidňoval, že se ten raid jenom neposkládal při náběhu, že jenom přijedu, mrknu na terminál, bude stačit zadat pár příkazů k obnově a všechno během pár minut zase pofrčí.
Není třeba nějaká utilita, která by vzala ty image, které jsem udělal a nějakým způsobem to zkrátka přečetlo? Vždyť přece není možný, aby to bylo tak tupé a neřešitelné, nechci se fakt smířit s tím, že bych o ta data přišel.
-
Ten disk je evidentně locknutý, takže než se budeme snažit o rebuild pole, je potřeba vyřešit toto.
Co ten BIOS?
Zkusil bych mimochodem nabootovat 12.04, která je LTS, protože to může být jen bug mdadm.
Ještě taková ... možná by to mohlo fungovat, ale nikdy jsem to nepotřeboval, zkus
mdadm --force --zero-superblock /dev/sdc1
Zeptám se - nebylo nad tím raidem LVM?
edit: Co stopnout mdadm před tím odstraněním?
/etc/init.d/mdadm stop
-
Ahoj,
už jsem se z toho stavu nasranosti a zoufalství oklepal a jedeme dál.
1)V biosu RAID mód zapnutý rozhodně není.
2) Už sosám 12.04 LTS
3)
mdadm --force --zero-superblock /dev/sdc1
odpověď:
mdadm: --force does not set the mode, and so cannot be the first option.
4) Po stopnutí mdadm:
/etc/init.d/mdadm stop
* Stopping MD monitoring service mdadm --monitor [ OK ]
Nepomáhá, píše to stále to stejné při snaze vyzerovat.
-
Tak podle odpovědi udělej:
mdadm --zero-superblock /dev/sdc1 --force
-
Ahoj,
ještě jsem tam nehodil ten 12.04 LTS ale :
první spuštění příkazu:
mdadm --zero-superblock /dev/sdc1 --force
neudělalo nic.
--zero-superblock /dev/sdb1 --force
mdadm: Unrecognised md component device - /dev/sdb1
a
mdadm --zero-superblock /dev/sdc1 --force
mdadm: Unrecognised md component device - /dev/sdc1
Když potom zkouším
mdadm --create /dev/md0 --level=5 --raid-devices=3 --assume-clean missing /dev/sdb1 /dev/sdc1
píše to:
mdadm: super1.x cannot open /dev/sdc1: Device or resource busy
mdadm: /dev/sdc1 is not suitable for this array.
mdadm: create aborted
-
sdc1 tedy má tedy konečně odstraněný superblock.
Zkus to restartnout a o to vytvoření požádat znova, je možné, že to blokuje předchozí stav přiřazení v poli.
-
Ahoj,
po restartu (stále 13.10) to píše tohle:
mdadm --create /dev/md0 --level=5 --raid-devices=3 --assume-clean missing /dev/sdb1 /dev/sdc1
mdadm: super1.x cannot open /dev/sdc1: Device or resource busy
mdadm: /dev/sdc1 is not suitable for this array.
mdadm: create aborted
Co dělám špatně? Myslíš, že fakt pomůže ta 12.04?
-
mount nic nepíše?
V logu to není?
Tváří se to, že něco má ten disk uzamčený.
Co zkusit parametr --force?
-
mount:
mount
/cow on / type overlayfs (rw)
proc on /proc type proc (rw,noexec,nosuid,nodev)
sysfs on /sys type sysfs (rw,noexec,nosuid,nodev)
udev on /dev type devtmpfs (rw,mode=0755)
devpts on /dev/pts type devpts (rw,noexec,nosuid,gid=5,mode=0620)
tmpfs on /run type tmpfs (rw,noexec,nosuid,size=10%,mode=0755)
/dev/sdd1 on /isodevice type vfat (rw,relatime,fmask=0022,dmask=0022,codepage=43 7,iocharset=iso8859-1,shortname=mixed,errors=remount-ro)
/dev/loop0 on /cdrom type iso9660 (ro,noatime)
/dev/loop1 on /rofs type squashfs (ro,noatime)
none on /sys/fs/cgroup type tmpfs (rw)
none on /sys/fs/fuse/connections type fusectl (rw)
none on /sys/kernel/debug type debugfs (rw)
none on /sys/kernel/security type securityfs (rw)
tmpfs on /tmp type tmpfs (rw,nosuid,nodev)
none on /run/lock type tmpfs (rw,noexec,nosuid,nodev,size=5242880)
none on /run/shm type tmpfs (rw,nosuid,nodev)
none on /run/user type tmpfs (rw,noexec,nosuid,nodev,size=104857600,mode=0755)
none on /sys/fs/pstore type pstore (rw)
systemd on /sys/fs/cgroup/systemd type cgroup (rw,noexec,nosuid,nodev,none,name= systemd)
gvfsd-fuse on /run/user/999/gvfs type fuse.gvfsd-fuse (rw,nosuid,nodev,user=lubu ntu)
mdadm --create /dev/md0 --level=5 --force --raid-devices=3 --assume-clean missing /dev/sdb1 /dev/sdc1
mdadm: super1.x cannot open /dev/sdc1: Device or resource busy
mdadm: /dev/sdc1 is not suitable for this array.
mdadm: create aborted
edit: Tento topic pokračuje na http://forum.ubuntu.cz/index.php?topic=70280.25 (http://forum.ubuntu.cz/index.php?topic=70280.25) DRUHOU STRÁNKU
-
Co ten log? Nic tam?
Je to nějaké divné, proč je locknutý ...
-
Jediné co se o raidu píše v syslogu:
Jan 26 21:57:01 lubuntu kernel: [ 516.250212] perf samples too long (5015 > 5000), lowering kernel.perf_event_max_sample_rate to 25000
Jan 26 21:57:10 lubuntu kernel: [ 525.863686] async_tx: api initialized (async)
Jan 26 21:57:10 lubuntu kernel: [ 525.884227] xor: measuring software checksum speed
Jan 26 21:57:10 lubuntu kernel: [ 525.924013] pIII_sse : 3840.000 MB/sec
Jan 26 21:57:10 lubuntu kernel: [ 525.964012] prefetch64-sse: 4316.000 MB/sec
Jan 26 21:57:10 lubuntu kernel: [ 525.964019] xor: using function: prefetch64-sse (4316.000 MB/sec)
Jan 26 21:57:11 lubuntu kernel: [ 526.076034] raid6: mmxx1 338 MB/s
Jan 26 21:57:11 lubuntu kernel: [ 526.144040] raid6: mmxx2 575 MB/s
Jan 26 21:57:11 lubuntu kernel: [ 526.212179] raid6: sse1x1 281 MB/s
Jan 26 21:57:11 lubuntu kernel: [ 526.280094] raid6: sse1x2 520 MB/s
Jan 26 21:57:11 lubuntu kernel: [ 526.348011] raid6: sse2x1 556 MB/s
Jan 26 21:57:11 lubuntu kernel: [ 526.416017] raid6: sse2x2 1036 MB/s
Jan 26 21:57:11 lubuntu kernel: [ 526.416023] raid6: using algorithm sse2x2 (1036 MB/s)
Jan 26 21:57:11 lubuntu kernel: [ 526.416028] raid6: using ssse3x1 recovery algorithm
Jan 26 21:57:11 lubuntu kernel: [ 526.464428] md: raid6 personality registered for level 6
Jan 26 21:57:11 lubuntu kernel: [ 526.464438] md: raid5 personality registered for level 5
Jan 26 21:57:11 lubuntu kernel: [ 526.464445] md: raid4 personality registered for level 4
Jan 26 21:57:19 lubuntu dbus[1157]: [system] Activating service name='org.freedesktop.PackageKit' (using servicehelper)
Jan 26 21:57:20 lubuntu dbus[1157]: [system] Activating service name='org.freedesktop.ConsoleKit' (using servicehelper)
Jan 26 21:57:20 lubuntu dbus[1157]: [system] Successfully activated service 'org.freedesktop.ConsoleKit'
Jan 26 21:57:20 lubuntu dbus[1157]: [system] Successfully activated service 'org.freedesktop.PackageKit'
Jan 26 22:02:19 lubuntu mdadm[4597]: DeviceDisappeared event detected on md device /dev/md/0
Jan 26 22:02:29 lubuntu postfix/master[4898]: daemon started -- version 2.10.2, configuration /etc/postfix
Jan 26 22:02:35 lubuntu dbus[1157]: [system] Activating service name='org.freedesktop.PackageKit' (using servicehelper)
Jan 26 22:02:35 lubuntu dbus[1157]: [system] Successfully activated service 'org.freedesktop.PackageKit'
Jinak v syslogu nic.
Mám se podívat ještě někde jinde? Projíždím logy a koukám, kde by mohlo být něco zajímavého, googlím do toho a nikde nic čeho bych si měl všimnout.
-
Hele vážně bych nabootoval 12.04, netuším v čem je zakopaný pes a takhle pekelně se mi to nikdy nechovalo.
Je to problém?
-
Ahoj,
tak jsem konečně nabootoval ve 12.04.03 LTS i386.
cat /etc/issue
Ubuntu 12.04.3 LTS \n \l
uname -r
3.8.0-29-generic
A píše to úplně to stejný.
mdadm --create /dev/md0 --level=5 --force --raid-devices=3 --assume-clean missing /dev/sdb1 /dev/sdc1
mdadm: super1.x cannot open /dev/sdc1: Device or resource busy
mdadm: /dev/sdc1 is not suitable for this array.
mdadm: create aborted
cat /proc/mdstat
Personalities :
unused devices: <none>
mdadm --examine /dev/sdb1
mdadm: No md superblock detected on /dev/sdb1.
mdadm --examine /dev/sdc1
mdadm: No md superblock detected on /dev/sdc1.
opis syslogu:
Jan 28 10:31:16 ubuntu mdadm[9218]: DeviceDisappeared event detected on md device /dev/md/0
Jan 28 10:31:24 ubuntu postfix/master[9518]: daemon started -- version 2.9.6, configuration /etc/postfix
Jan 28 10:34:48 ubuntu kernel: [ 2896.832533] async_tx: api initialized (async)
Jan 28 10:34:48 ubuntu kernel: [ 2896.932041] raid6: mmxx1 358 MB/s
Jan 28 10:34:48 ubuntu kernel: [ 2897.000122] raid6: mmxx2 705 MB/s
Jan 28 10:34:48 ubuntu kernel: [ 2897.068403] raid6: sse1x1 113 MB/s
Jan 28 10:34:48 ubuntu kernel: [ 2897.136280] raid6: sse1x2 195 MB/s
Jan 28 10:34:48 ubuntu kernel: [ 2897.204135] raid6: sse2x1 189 MB/s
Jan 28 10:34:48 ubuntu kernel: [ 2897.272174] raid6: sse2x2 368 MB/s
Jan 28 10:34:48 ubuntu kernel: [ 2897.340090] raid6: int32x1 166 MB/s
Jan 28 10:34:49 ubuntu kernel: [ 2897.408097] raid6: int32x2 219 MB/s
Jan 28 10:34:49 ubuntu kernel: [ 2897.476076] raid6: int32x4 252 MB/s
Jan 28 10:34:49 ubuntu kernel: [ 2897.544146] raid6: int32x8 283 MB/s
Jan 28 10:34:49 ubuntu kernel: [ 2897.544158] raid6: using algorithm mmxx2 (705 MB/s)
Jan 28 10:34:49 ubuntu kernel: [ 2897.544164] raid6: using ssse3x1 recovery algorithm
Jan 28 10:34:49 ubuntu kernel: [ 2897.571575] md: raid6 personality registered for level 6
Jan 28 10:34:49 ubuntu kernel: [ 2897.571587] md: raid5 personality registered for level 5
Jan 28 10:34:49 ubuntu kernel: [ 2897.571594] md: raid4 personality registered for level 4
-
Pozor, tam je
DeviceDisappeared event detected on md device /dev/md/0
cat /proc/mdstat
-
cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
unused devices: <none>
-
ls -l /dev/md*
Pořád nechápu, proč to nechce povolit, našel jsem pár podobných případů, ale tam to pole běželo, byť blbě, tedy nechtělo uvolnit ten disk
mdadm --create /dev/md0 --assume-clean --level=5 --raid-devices=3 missing /dev/sdb1 /dev/sdc1 --force --verbose
-
Ahoj,
root@ubuntu:/# ls -l /dev/md*
ls: cannot access /dev/md*: No such file or directory
root@ubuntu:/# ls -l /dev/md1
ls: cannot access /dev/md1: No such file or directory
root@ubuntu:/# ls -l /dev/md0
ls: cannot access /dev/md0: No such file or directory
root@ubuntu:/#
root@ubuntu:/# mdadm --create /dev/md0 --assume-clean --level=5 --raid-devices=3 missing /dev/sdb1 /dev/sdc1 --force --verbose
mdadm: layout defaults to left-symmetric
mdadm: layout defaults to left-symmetric
mdadm: chunk size defaults to 512K
mdadm: super1.x cannot open /dev/sdc1: Device or resource busy
mdadm: /dev/sdc1 is not suitable for this array.
mdadm: create aborted
edit:
Takovej dotaz: Nemám to dát nainstalovat na druhou flashku ten systém a potom to zkusit znovu s nainstalovaným systémem, narozdíl od LIVEka ?
-
bump.
-
Sorry, přehlídl jsem odpověď.
sudo ls /dev/mapper/*
sudo blkid
-
root@ubuntu:/# ls /dev/mapper/*
/dev/mapper/control
root@ubuntu:/# blkid
/dev/loop0: LABEL="Ubuntu 12.04.3 LTS i386" TYPE="iso9660"
/dev/loop1: TYPE="squashfs"
/dev/sda1: UUID="04899ab3-c55c-110e-9218-154271ed1fd8" UUID_SUB="96318c6e-06fb-000b-ffea-233030be71fe" LABEL="datastore:0" TYPE="linux_raid_member"
/dev/sdc1: UUID="db091afa-1f59-4f04-9180-53d5b632ea29" TYPE="swap"
/dev/sdd1: LABEL="XBOOT" UUID="DCC8-24AC" TYPE="vfat
V pohodě, stane se. Díky za pomoc. ;-)
-
z posledniho vypisu vidim pouze jeden TYPE="linux_raid_member" .. nesledoval jsem podrobne tenhle thread, ale pokud ti teda z raidu 5 zbyla jen 1/3, tak bych rekl, ze ta data se z toho uz nedaj dostat ..
opravte me pokud se pletu
-
No hlavně bych řekl, že se snažíš spustit RAID na sdc1, který je ale dle blkid připojený jako swap a tedy správně blokovaný ...
/dev/sdc1: UUID="db091afa-1f59-4f04-9180-53d5b632ea29" TYPE="swap"
cat /proc/swaps
-
Ahoj,
root@ubuntu:/# cat /proc/swaps
Filename Type Size Used Priority
/dev/sda1 partition 1073148 0 -1
/dev/sdc1 partition 1073148 0 -2
-
Vzhledem k té identické velikosti particií, nebyl ten raid poskládaný jinak?
sudo fdisk -l /dev/sdc
-
root@ubuntu:/# sudo fdisk -l /dev/sdc
Disk /dev/sdc: 500.1 GB, 500106780160 bytes
255 heads, 63 sectors/track, 60801 cylinders, total 976771055 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x0003e1ac
Device Boot Start End Blocks Id System
/dev/sdc1 * 2048 976769023 488383488 fd Linux raid autodetect
No, prostě tam jsou pořád ty stejný 3 disky. Ten první disk ten se podělal asi nějak brzo a o silvestru to já vůl restartnul a pak už jsem nenabootoval.
-
sudo swapoff /dev/sdc1
A pak zkus nahodit ten raid, disk už nebude locknutý. Pokud máš štěstí, tak sdc1 nebylo použité jako swap v mezidobě.
Pokud smůlu, pak je po datech definitivně.
-
podle me je po datech uz davno .. pokud mas ze 3 raid5 disku jen jeden, (tzn jeden alespon rika ze je raid, druhej je dead a treti rika ze je swap) tak uz davno neni co resit
-
TY *censored*!!!
FUNGUJE TO!!!
Vaněčku seš geniální! Seš genius!!!
root@ubuntu:/# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md0 : active raid5 sdc1[2] sdb1[1]
976503808 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [_UU]
Hej ale když to chcu mountnout, tak mi to píše wrong FS type.
root@ubuntu:/# mount /dev/md0 /mnt/
mount: you must specify the filesystem type
tak dám
root@ubuntu:/# dmesg | tail
[914275.879956] EXT3-fs (md0): error: can't find ext3 filesystem on dev md0.
[914275.880415] EXT4-fs (md0): VFS: Can't find ext4 filesystem
[914275.880746] FAT-fs (md0): bogus number of reserved sectors
[914275.880754] FAT-fs (md0): Can't find a valid FAT filesystem
[914275.881428] REISERFS warning (device md0): sh-2021 reiserfs_fill_super: can not find reiserfs on md0
[914275.882047] XFS (md0): bad magic number
[914275.882066] XFS (md0): SB validate failed
[914275.886719] ISOFS: Unable to identify CD-ROM format.
[914275.887178] SQUASHFS error: Can't find a SQUASHFS superblock on md0
[914307.459410] EXT2-fs (md0): error: can't find an ext2 filesystem on dev md0.
root@ubuntu:/# mount /dev/md0 /mnt/ -t ext2
mount: wrong fs type, bad option, bad superblock on /dev/md0,
missing codepage or helper program, or other error
In some cases useful info is found in syslog - try
dmesg | tail or so
fdisk -l pro md0
Disk /dev/md0: 999.9 GB, 999939899392 bytes
2 heads, 4 sectors/track, 244125952 cylinders, total 1953007616 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 524288 bytes / 1048576 bytes
Disk identifier: 0x0000b085
Disk /dev/md0 doesn't contain a valid partition table
Tady kompletní syslog od toho co začalo být důležité:
Feb 7 23:41:45 ubuntu kernel: [914114.277492] md: bind<sdb1>
Feb 7 23:41:45 ubuntu kernel: [914114.285474] md: bind<sdc1>
Feb 7 23:41:45 ubuntu kernel: [914114.303535] md/raid:md0: device sdc1 operational as raid disk 2
Feb 7 23:41:45 ubuntu kernel: [914114.303546] md/raid:md0: device sdb1 operational as raid disk 1
Feb 7 23:41:45 ubuntu kernel: [914114.305019] md/raid:md0: allocated 3206kB
Feb 7 23:41:45 ubuntu kernel: [914114.314429] md/raid:md0: raid level 5 active with 2 out of 3 devices, algorithm 2
Feb 7 23:41:45 ubuntu kernel: [914114.314441] RAID conf printout:
Feb 7 23:41:45 ubuntu kernel: [914114.314447] --- level:5 rd:3 wd:2
Feb 7 23:41:45 ubuntu kernel: [914114.314456] disk 1, o:1, dev:sdb1
Feb 7 23:41:45 ubuntu kernel: [914114.314463] disk 2, o:1, dev:sdc1
Feb 7 23:41:45 ubuntu kernel: [914114.314562] md0: detected capacity change from 0 to 999939899392
Feb 7 23:41:45 ubuntu mdadm[9218]: NewArray event detected on md device /dev/md0
Feb 7 23:41:45 ubuntu kernel: [914114.327977] md0: unknown partition table
Feb 7 23:41:46 ubuntu mdadm[9218]: DegradedArray event detected on md device /dev/md0
Feb 7 23:41:46 ubuntu postfix/pickup[13731]: 1219D1C3A3: uid=0 from=<root>
Feb 7 23:41:46 ubuntu postfix/cleanup[13998]: 1219D1C3A3: message-id=<20140207234146.1219D1C3A3@ubuntu>
Feb 7 23:41:46 ubuntu postfix/qmgr[9522]: 1219D1C3A3: from=<root@ubuntu>, size=726, nrcpt=1 (queue active)
Feb 7 23:41:46 ubuntu postfix/local[14001]: 1219D1C3A3: to=<root@ubuntu>, orig_to=<root>, relay=local, delay=0.19, delays=0.07/0.12/0/0, dsn=2.0.0, status=sent (delivered to mailbox)
Feb 7 23:41:46 ubuntu postfix/qmgr[9522]: 1219D1C3A3: removed
Feb 7 23:42:26 ubuntu kernel: [914154.547110] EXT3-fs (md0): error: can't find ext3 filesystem on dev md0.
Feb 7 23:42:26 ubuntu kernel: [914154.547524] EXT4-fs (md0): VFS: Can't find ext4 filesystem
Feb 7 23:42:26 ubuntu kernel: [914154.547927] FAT-fs (md0): bogus number of reserved sectors
Feb 7 23:42:26 ubuntu kernel: [914154.547935] FAT-fs (md0): Can't find a valid FAT filesystem
Feb 7 23:42:26 ubuntu kernel: [914154.549251] REISERFS warning (device md0): sh-2021 reiserfs_fill_super: can not find reiserfs on md0
Feb 7 23:42:26 ubuntu kernel: [914154.550228] XFS (md0): bad magic number
Feb 7 23:42:26 ubuntu kernel: [914154.550256] XFS (md0): SB validate failed
Feb 7 23:42:26 ubuntu kernel: [914154.559520] ISOFS: Unable to identify CD-ROM format.
Feb 7 23:42:26 ubuntu kernel: [914154.560293] SQUASHFS error: Can't find a SQUASHFS superblock on md0
Feb 7 23:42:53 ubuntu kernel: [914182.050009] EXT3-fs (md0): error: can't find ext3 filesystem on dev md0.
Feb 7 23:42:53 ubuntu kernel: [914182.050308] EXT4-fs (md0): VFS: Can't find ext4 filesystem
Feb 7 23:42:53 ubuntu kernel: [914182.050595] FAT-fs (md0): bogus number of reserved sectors
Feb 7 23:42:53 ubuntu kernel: [914182.050603] FAT-fs (md0): Can't find a valid FAT filesystem
Feb 7 23:42:53 ubuntu kernel: [914182.051271] REISERFS warning (device md0): sh-2021 reiserfs_fill_super: can not find reiserfs on md0
Feb 7 23:42:53 ubuntu kernel: [914182.051876] XFS (md0): bad magic number
Feb 7 23:42:53 ubuntu kernel: [914182.051899] XFS (md0): SB validate failed
Feb 7 23:42:53 ubuntu kernel: [914182.057092] ISOFS: Unable to identify CD-ROM format.
Feb 7 23:42:53 ubuntu kernel: [914182.057571] SQUASHFS error: Can't find a SQUASHFS superblock on md0
Feb 7 23:44:00 ubuntu kernel: [914248.653728] EXT4-fs (md0): VFS: Can't find ext4 filesystem
Feb 7 23:44:04 ubuntu kernel: [914253.165583] EXT3-fs (md0): error: can't find ext3 filesystem on dev md0.
Feb 7 23:44:27 ubuntu kernel: [914275.879956] EXT3-fs (md0): error: can't find ext3 filesystem on dev md0.
Feb 7 23:44:27 ubuntu kernel: [914275.880415] EXT4-fs (md0): VFS: Can't find ext4 filesystem
Feb 7 23:44:27 ubuntu kernel: [914275.880746] FAT-fs (md0): bogus number of reserved sectors
Feb 7 23:44:27 ubuntu kernel: [914275.880754] FAT-fs (md0): Can't find a valid FAT filesystem
Feb 7 23:44:27 ubuntu kernel: [914275.881428] REISERFS warning (device md0): sh-2021 reiserfs_fill_super: can not find reiserfs on md0
Feb 7 23:44:27 ubuntu kernel: [914275.882047] XFS (md0): bad magic number
Feb 7 23:44:27 ubuntu kernel: [914275.882066] XFS (md0): SB validate failed
Feb 7 23:44:27 ubuntu kernel: [914275.886719] ISOFS: Unable to identify CD-ROM format.
Feb 7 23:44:27 ubuntu kernel: [914275.887178] SQUASHFS error: Can't find a SQUASHFS superblock on md0
Feb 7 23:44:59 ubuntu kernel: [914307.459410] EXT2-fs (md0): error: can't find an ext2 filesystem on dev md0.
Hej sorry že už se fakt ptám na každou kravinu, ale už jsme tak blízko!!! Už to skoro je!
-
No trochu se bojím, že nefunguje - na ten disk bylo pravděpodobně zapsáno jako do swapu.
fdisk samosebou nemůže vypsat nic, protože jej pouštíš na particii a ne na hdd.
Zkus ještě fsck.ext3 (bo co tam bylo) na ten md0, ale moc tomu nedávám.
-
možná by šlo něco zachránit, pokud by se povedlo přimountování s nějakým alternativním superblokem, ale něco bude nepochybně poškozené
-
root@ubuntu:/# fsck.ext3 /dev/md0
e2fsck 1.42 (29-Nov-2011)
fsck.ext3: Neplatný superblok, zkouším záložní bloky…
fsck.ext3: Chybné magické číslo v superbloku při pokusu otevřít /dev/md0
Superblok nemohl být načten nebo nepopisuje správný systém souborů
ext2. Pokud je zařízení platné a opravdu obsahuje systém souborů
ext2 (a ne swap nebo něco jiného), pak je superblok
poškozen a můžete zkusit spustit e2fsck s jiným superblokem:
e2fsck -b 8193 <zařízení>
root@ubuntu:/# fsck.ext4 /dev/md0
e2fsck 1.42 (29-Nov-2011)
fsck.ext4: Neplatný superblok, zkouším záložní bloky…
fsck.ext4: Chybné magické číslo v superbloku při pokusu otevřít /dev/md0
Superblok nemohl být načten nebo nepopisuje správný systém souborů
ext2. Pokud je zařízení platné a opravdu obsahuje systém souborů
ext2 (a ne swap nebo něco jiného), pak je superblok
poškozen a můžete zkusit spustit e2fsck s jiným superblokem:
e2fsck -b 8193 <zařízení>
Co použít nějak superblock z toho /dev/sda1 ? No ták! Co testdisk, nebo něco takovýho?
Neříkejte mi, že to nejde. Určitě to půjde, data tam mám. Přece nás nezastaví, že je vadnej superblock, když už se podařilo ten raid znovu nahodit a sestavit!
Hele mám ještě tu zálohu pomocí dd. Co nějak použít ji? Šlo by to? Šlo by z toho udělaného dd něco udělat? Pokud ano, jak?
-
Superblock z sda1 nelze použít, protože ext systém není nad sda1, ale nad md0, tedy nad kombinací sda1 a sdc1.
Zkus ten
e2fsck -b 8193 /dev/md0
Ale jak jsem psal, naděje tomu moc nedávám.
-
root@ubuntu:/# e2fsck -b 8193 /dev/md0
e2fsck 1.42 (29-Nov-2011)
e2fsck: Chybné magické číslo v superbloku při pokusu otevřít /dev/md0
Superblok nemohl být načten nebo nepopisuje správný systém souborů
ext2. Pokud je zařízení platné a opravdu obsahuje systém souborů
ext2 (a ne swap nebo něco jiného), pak je superblok
poškozen a můžete zkusit spustit e2fsck s jiným superblokem:
e2fsck -b 8193 <zařízení>
Počkej tomu fakt nevěřím. Co tam mám teda za data na těch discích? Ty disky jsou plný dat, o tom prostě žádná a musí ta data jít nějak vytáhnout.
Co ten testdisk? Nebo prostě jak se zachraňujou data z RAIDu? Však musí prostě jít nějak udělat to, že já mám hotové ty dd image disků a v nějakým jiným počítači si to pak dám dohromady, otevřu si to a jenom přečtu, ne? A nemůže nás přece zastavit něco jako je superblock, nebo třeba neplatnej FS.
Když je možný tohleto krásně opravit u běžnejch exterňáků, tak to musí jít i u RAID 5 navíc softwarově udělaný. Kdyby to byla RAID 5 hardwarově, tak o tom vůbec nediskutuju, ale že je to obyč SW raid.
Mám navíc udělaný ty DD image, když ty disky měly ještě každej superblock. Takže se k tomu můžu teoreticky zase vrátit.
-
Problém je v tom, že jeden z těch disků byl připojený jako swap a systém si na něj viditelně "něco" odložil, tedy přepsal část toho, co byly data, něčím nesmyslným.
Jestli je raid HW, nebo SW je úplně jedno, pokud jsou data na jednom ze dvou zbylých disků z RAID5 přepsaný, nelze je rekonstruovat, protože jsou vypočítávaná.
Velice zjednodušený příklad:
Mám data, která mají hodnotu 2.
Mám tři disky, na každý z nich zapíši 1 s tím, že libovolný součet dvou nezávislých disků mi dá právě tu 2.
Pokud jeden disk zdechne, pořád mám dva disky, které dokáží říci, že 1+1 = 2.
Ale pokud mám jen jeden disk, mám jen 1, tedy dostávám příklad 1 + x = y
S těmi dd image - je otázka, zda to nebylo jako swap připojené již ve chvíli, kdy jsi ten dd dělal. Jednoduše zkus udělat ten dd zpět na disk, znova resetuj superblock a zkus vytvořit pole.
Jen ještě poznámka - něco jiného je superblock filesystému a něco jiného je superblock raidu, každé to leží na úplně jiné vrstvě. Superblock raidu říká, že particie je součástí nějakého RAIDu a definuje přesněji jakého. Superblock filesystému leží až nad raidem, je součástí filesystému a obsahuje informace o filesystému, tedy o tom, kde leží první blok dat, kolik je tam inodů, kdy byl naposledy připojen, kolikrát, jak je vůbec FS veliký, definice oprávnění atd.
Testdisk atp. předpokládá, že je jen rozsypaný filesystém, tedy infomace o tom, kde jaká data leží. Ten by tady asi moc nepomohl protože data jsou kalkulována ze dvou particií, tedy i ten testdisk má k dispozici jen vždy polovinu těch dat (ale bohužel ne ve smyslu půlky počtu souborů, ale jen polovinu parity každého jednoho souboru resp. dat obsažených na partici na nejnižší úrovni, protože FS může být nad raidem libovolný, nebo dokonce žádný)
-
Díky za info.
Jak teda poznám, že ten dd co jsem si udělal je vadný u těch disků, nebo ne? Ať tady zase nemusím XYZ dní sypat tu DD zálohu zpět do těch disků.
Dá se to nějak poznat?
-
Zkus http://www.linuxquestions.org/questions/linux-server-73/mdadm-assemble-raid5-with-loopback-mounted-disk-images-715343/
-
Ahoj,
namapuju to v tom linuxu, ale při skládání toho /dev/loop0 a 1 háže chybu.
tak jsem to zkusil a hlásí mi to:
stroj:~# losetup /dev/loop0 /root/sdb.gz
stroj:~# losetup /dev/loop1 /root/sdc.gz
stroj:~# mdadm -A /dev/md3 /dev/loop0 /dev/loop1
mdadm: no recogniseable superblock on /dev/loop0
mdadm: /dev/loop0 has no superblock - assembly aborted
podle návodu dál jsem zkusil:
Using /root/sdb.gz
Welcome to GNU Parted! Type 'help' to view a list of commands.
(parted) unit b
(parted) print
Error: /root/sdb.gz: unrecognised disk label
fdisk to nevidí vůbec žádnou partitionu na tom disku. Takže předpokládám, že doba, kdy jsem prováděl ten dd už asi systém do toho pole zapsal jako do swapu, je to tak, nebo se pletu a jenom je to problém s tím superblockem?
-
Hlavně bych tipl, že název sdb.gz znamená, že je to celé zabalené gzipem, tedy by bylo napřed potřeba to rozbalit ...