Zalezi na masine. Pokud jde ILOM (neplest s iLO) tak u nekterych cervenych serveru vyzaduje i restart hosta - z duvodu update FPGA komponent a update BIOSu. Narozdil treba od Dellu cervene masiny maji v ILOMu casto i novy BIOS - treba zkontrolovat changelog a ten se updatuje az pri startu hosta.
I u DRACu kde jsou jednotlive firmwary pomerne dobre oddeleny bylo v nekterych pripadech doporucovano restartovat hosta co nejdrive to bude mozne.
Ono BMC si na tech platformach nezije uplne oddelene od zbytku systemu.
Proc neverim na napoj nesmrtelnosti? Protoze ho vyrabim a ty changelogy obcas posilame dellu,oracle,HP na integraci s jejich fw.
Mám celkem bohaté zkušenosti se SuperMicro X11SAE-F (dvě workstationy/ servery) a boot je na tom dlouhý, ale BMC v tom na skoro 100% prsty nemá/ nerebootuje se.
Jinak zajímavý posun by mohl přinést do normálnějších serverů oxide.computer. Ta firma se snaží dělat open compute servery, které mají v managementu minimum funkcí, zato ale pořádně udělaných. Všechno z toho by mělo být přístupné pomocí API a nějaké CLI přímo z operačního systému toho daného serveru. Jejich "On The Metal" podcast byl taky zajímavý, kdyby to někoho zajímalo.
HW diagnostika. A i kdyz preskocis vetsinu diagnostiky tak porad ti zbyva dost veci co musis zinicializovat sekvencne s prodlevami ale nemuzes to udelat hned.
Pokud ma treba server jen 8 cpu po 24 corech uz to hodne prodlouzi boot.
Je to dan za to ze vsechno je nacpano hromadou veci uvnitr SoC a i na obycejne PC se nabalila spousta HW subsystemu.
Inicializace nekterych inteligentnich sitovek ktere maji hodne offloadu, hromadu front, VxLAN filtering etc. je proste za trest. Stejne tak radicu
Neni to tak dlouho co kompletni diagnosticky boot Slunickove Mx rady HW trval 30 minut. Pri diag bootu to osmatavalo i JTAG interface jednotlivych cpu boardu.
No zrovna dneska jsem restartoval server od HPE a trvalo to čistého času 2 hodiny, z toho cca 90% času server stál na "starting drivers".. Ale tohle je víceméně výjimka (vypadá to na bug v ILO), většinou to stihne do 15 minut (což je pořád dost), ale nedivím se, vzhledem k tomu co všechno ty "biosy" dnes umí (v podstatě startuje celý operační systém).
I těch 15 minut mi přijde jako opravdu dlouho. Myslím, že většina z toho co zdržuje bude reálně nějaká lenost výrobce/ dodavatele BIOSu resp. UEFI resp. firmwarů a různé další příliš dlouhé timeouty a checky.
Podle mě není nikde psáno, že by nemohl server bootovat v rámci třeba pár sekund + pár sekund pro operační systém. Nejen, že tam bude všude možně spousta prodlev stylem, radši tam dáme par sekund sleep a nemusíme tu řešit nějaký souběh...
Různé činnosti jako RAM conditioning jistě lze rozdělit a bootovat dál s menším množstvím a zbytek jader a RAM připojit třeba později až se prověří. I několik TB RAM se přečte za pár sekund. Rozhodně na různé úrovně pseudo hot-plug jsou různé technologie v reálných serverech již dnes pod pojmem RAS zabudované a počítá se s tím i kvůli virtualizaci a různým big.little architekturám. Dnes už dokonce umíme udělat oboustranné USB, tak možná že by se i výměna CPU nebo RAM za běhu mohla dostat z IBM mainframů do normálních 2-socketových serverů. Zavolal by se program třeba 'cpuunmount 0' nebo tak a potom by se prostě ten procesor vytáhl. Po připojení nového by se zavolalo 'cpumount 0' a bylo by. Podobně s RAM. A když jsme u toho, tak by mělo být rovnou možné i nastartovat dva nezávislé operační systémy na dvousocketovém serveru nebo aspoň vyměnit jádro za běhu systému (ano takový live-patch, ale čistěji, který by uměl třeba i "live-unpatch").
Omlouvám se, jsem trochu snílek :-)
Tak ano, takový hot-plug je a občas i funguje. :-)
Můžu ale ten druhý procesor na dvousocketové desce skutečně za běhu a bez jakéhokoliv restartu vyndat?
Jako power gatovat jednotlivá jádra je zajímavé, ale opravdu je to podstatně jiný problém než řešení toho, že najednou polovina RAM není dostupná resp. se musí vyčistit a věci, které byly v cache druhého procesoru najednou jsou dostupné jen z RAM. Taky PCIe zařízení navěšená na určitý procesor přestanou být dostupná a to včetně south bridge typicky v případě prvního procesoru tzv. socket 0 - proto předpokládám, že na x86 v současné době hot-plug celých CPU možný není. Možná u 4 nebo 8 socketových kousků s nějakými speciálními multiplexory, ale nevím o tom.
Vím jen o tom, že výměna Central Processor Complex je nebo přinejmenším byla možná na IBM Z-series: https://www.ibm.com/support/knowledgecenter/zosbasics/com.ibm.zos.zcourses/zcourses_MFHWinternals.pdf
Myslím hardwarově. Že to softwarově jde jsem už psal - kvůli virtualizaci to je nutné.
Kdybyste mohl poskytnout odkaz na dokumentaci, která to u konkrétního aktuálního serveru tvrdí, že to na Intelu nebo AMD lze, tak bych byl vděčný. Já jsem totiž během pár minut na nic nepřišel. Odpojují se třeba celé nody např. v blade-serveru, ale to je v podstatě počítač se svým vlastním operačním systémem a ne jen CPU + RAM.
Hotplug je typicky jen u PCIe / PCI-X, ale u pameti nebo cpu nikoliv, tam je beznejsi "chip-kill" z RAS, kdy se nefunkcni pulka vypne, jen se pak prichazi o kontrolu funkce (je to podobne jako RAID-1 - vse jede do doby kdy nastane chyba zdvojene).
Nektere specialni servery umi ale cpu hotplug, napr.:
HP ProLiant ML570 G2 Server
https://support.hpe.com/hpesc/public/docDisplay?docId=c01579159&docLocale=en_US
Obávám se, že ten hot-plug se týká jen větráků chladiče CPU a ne CPU samotného. Navíc G2 je asi fakt starý model není aktuální něco jako G10? :-)
Ano, chip-kill je mi známý. Netýká se to náhodou doslova jednolivých čipů na modulech RAM?
V praxi jsem nic z toho nezažil, obyčejně buduji HA nad několika uzly a ne v rámci uzlů samotných. Je to v praxi ekonomičtější.
Haha, tak to maj pekne blbe napsany :)
Osobne si nemyslim si ze existuje skutecny fyzicky hotplug v X86, mam hromadu knizek ohledne architektur do P4, a kdyz to do te doby neexistovalo (jen ten RAS a mirroring pametovych kanalu), tak nepredpokladam ze to zavedli u te nasledne "spotrebky" kterou delaj do dnesniho dne.
Mozna by Itanium mohlo byt privetivejsi (a taky ze je), ale problem hotplugu je taky moznost to jednoduse vymenit.. takze cpu musi byt na nejake cartridge, a holt doba se vyvijela tak, ze RAM je navazana tesne na CPU - takze nejde menit jenom procesor, ale musela by se menit rovnou cela police - coz je snad uz spravnej priklad: HP Integrity rx7620 (ma 2x cell board, kazdy ma svoje pameti a 4 cpu, meni se cely "cell", tj. pulka serveru)
Pokud leností nazývate i to, že je certifikační proces/audit proběhl v cenově rozumné hladině pak ano. Ale obecně si myslím, že je to dáno tím, že servery se nerebootujou tak často aby zákazníka pálily jednotky minut (a někdy i desítky, nám ale vše bootuje do 5 minut) víc než spolehlivost a stabilita serveru. Ono natřískat něco funkcemi umí kdejakej "Acer" ale pak je to v servisu během záruční doby sedmkrát. To si nemůžete dovolit u serveru ani když je oprava plně hrazená.