Vlákno názorů k článku Kexec: rychlý restart bez restartu od Josef Pavlik - nikdy jsem poradne nepochopil, proc servery bootuji tak...

Článek je starý, nové názory již nelze přidávat.

25. 11. 2020 0:14

Josef Pavlik

nikdy jsem poradne nepochopil, proc servery bootuji tak dlouho. Ale i vetsina normalnich desktopu stravi v biosu radove tolik, co potom trva cely zbytek bootu. Takze takovyhle rychly restart se mi libi. Ale stejne ho asi nikdy nepouziju, protoze rebootuju tak jednou za rok :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 11. 2020 1:11

RDa

U me je to z duvodu bootu biosu SAS radice, a pak u kazdeho - hlavni BIOS se spousti az kdyz nabehne ME/BMC.

Chtelo by to info od nekoho kdo vlastni Supermicro desky jak s -F tak bez F, coz je ten management - zda to dela rozdil
25. 11. 2020, 01:12 editováno autorem komentáře
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 11. 2020 9:05

Johana B.

Při rebootu BMC (stejně jako iLO, DRAC atd.) přece nenabíhá, to je na restartu systému nezávislé. A jinak ruční restart BMC je otázka necelé minuty, alespoň u starších X9DR3-F, A1SAi, X10SLM-F a A1SA7-2750F, se kterými mám zkušenost.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 11. 2020 10:13

Trident

Zalezi na masine. Pokud jde ILOM (neplest s iLO) tak u nekterych cervenych serveru vyzaduje i restart hosta - z duvodu update FPGA komponent a update BIOSu. Narozdil treba od Dellu cervene masiny maji v ILOMu casto i novy BIOS - treba zkontrolovat changelog a ten se updatuje az pri startu hosta.

I u DRACu kde jsou jednotlive firmwary pomerne dobre oddeleny bylo v nekterych pripadech doporucovano restartovat hosta co nejdrive to bude mozne.
Ono BMC si na tech platformach nezije uplne oddelene od zbytku systemu.

Proc neverim na napoj nesmrtelnosti? Protoze ho vyrabim a ty changelogy obcas posilame dellu,oracle,HP na integraci s jejich fw.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 11. 2020 10:53

Johana B.

To je sice hezké, ale nahoře se psalo o Supermicru a o čekání na restart BMC při POSTu. Což se očividně automaticky neděje. :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 11. 2020 23:44

Adam Kalisz

Stříbrný podporovatel

Mám celkem bohaté zkušenosti se SuperMicro X11SAE-F (dvě workstationy/ servery) a boot je na tom dlouhý, ale BMC v tom na skoro 100% prsty nemá/ nerebootuje se.

Jinak zajímavý posun by mohl přinést do normálnějších serverů oxide.computer. Ta firma se snaží dělat open compute servery, které mají v managementu minimum funkcí, zato ale pořádně udělaných. Všechno z toho by mělo být přístupné pomocí API a nějaké CLI přímo z operačního systému toho daného serveru. Jejich "On The Metal" podcast byl taky zajímavý, kdyby to někoho zajímalo.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 11. 2020 10:22

Trident

HW diagnostika. A i kdyz preskocis vetsinu diagnostiky tak porad ti zbyva dost veci co musis zinicializovat sekvencne s prodlevami ale nemuzes to udelat hned.
Pokud ma treba server jen 8 cpu po 24 corech uz to hodne prodlouzi boot.

Je to dan za to ze vsechno je nacpano hromadou veci uvnitr SoC a i na obycejne PC se nabalila spousta HW subsystemu.

Inicializace nekterych inteligentnich sitovek ktere maji hodne offloadu, hromadu front, VxLAN filtering etc. je proste za trest. Stejne tak radicu

Neni to tak dlouho co kompletni diagnosticky boot Slunickove Mx rady HW trval 30 minut. Pri diag bootu to osmatavalo i JTAG interface jednotlivych cpu boardu.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 11. 2020 18:24

LD

No zrovna dneska jsem restartoval server od HPE a trvalo to čistého času 2 hodiny, z toho cca 90% času server stál na "starting drivers".. Ale tohle je víceméně výjimka (vypadá to na bug v ILO), většinou to stihne do 15 minut (což je pořád dost), ale nedivím se, vzhledem k tomu co všechno ty "biosy" dnes umí (v podstatě startuje celý operační systém).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 11. 2020 23:08

Mintaka

No, v podstatě startuje několik (a někdy i několik desítek) operačních systémů.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 11. 2020 0:02

Adam Kalisz

Stříbrný podporovatel

I těch 15 minut mi přijde jako opravdu dlouho. Myslím, že většina z toho co zdržuje bude reálně nějaká lenost výrobce/ dodavatele BIOSu resp. UEFI resp. firmwarů a různé další příliš dlouhé timeouty a checky.
Podle mě není nikde psáno, že by nemohl server bootovat v rámci třeba pár sekund + pár sekund pro operační systém. Nejen, že tam bude všude možně spousta prodlev stylem, radši tam dáme par sekund sleep a nemusíme tu řešit nějaký souběh...
Různé činnosti jako RAM conditioning jistě lze rozdělit a bootovat dál s menším množstvím a zbytek jader a RAM připojit třeba později až se prověří. I několik TB RAM se přečte za pár sekund. Rozhodně na různé úrovně pseudo hot-plug jsou různé technologie v reálných serverech již dnes pod pojmem RAS zabudované a počítá se s tím i kvůli virtualizaci a různým big.little architekturám. Dnes už dokonce umíme udělat oboustranné USB, tak možná že by se i výměna CPU nebo RAM za běhu mohla dostat z IBM mainframů do normálních 2-socketových serverů. Zavolal by se program třeba 'cpuunmount 0' nebo tak a potom by se prostě ten procesor vytáhl. Po připojení nového by se zavolalo 'cpumount 0' a bylo by. Podobně s RAM. A když jsme u toho, tak by mělo být rovnou možné i nastartovat dva nezávislé operační systémy na dvousocketovém serveru nebo aspoň vyměnit jádro za běhu systému (ano takový live-patch, ale čistěji, který by uměl třeba i "live-unpatch").
Omlouvám se, jsem trochu snílek :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 11. 2020 21:43

Ondrej Nemecek

CPU hotplug na většině dnešních systému už má:

echo 0 > /sys/devices/system/cpu/cpu6/online
grep "processor" /proc/cpuinfo

Spousta dalších zařízení má hotplug také (SATA...).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 11. 2020 0:09

RDa

pohodlnejsi nastroje jsou lscpu a chcpu
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 11. 2020 5:32

Adam Kalisz

Stříbrný podporovatel

Tak ano, takový hot-plug je a občas i funguje. :-)
Můžu ale ten druhý procesor na dvousocketové desce skutečně za běhu a bez jakéhokoliv restartu vyndat?
Jako power gatovat jednotlivá jádra je zajímavé, ale opravdu je to podstatně jiný problém než řešení toho, že najednou polovina RAM není dostupná resp. se musí vyčistit a věci, které byly v cache druhého procesoru najednou jsou dostupné jen z RAM. Taky PCIe zařízení navěšená na určitý procesor přestanou být dostupná a to včetně south bridge typicky v případě prvního procesoru tzv. socket 0 - proto předpokládám, že na x86 v současné době hot-plug celých CPU možný není. Možná u 4 nebo 8 socketových kousků s nějakými speciálními multiplexory, ale nevím o tom.

Vím jen o tom, že výměna Central Processor Complex je nebo přinejmenším byla možná na IBM Z-series: https://www.ibm.com/support/knowledgecenter/zosbasics/com.ibm.zos.zcourses/zcourses_MFHWinternals.pdf
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 11. 2020 17:41

Ondrej Nemecek

To vyndání CPU myslíte na úrovni hardware nebo software? Co tomu řekne software by šlo možná vyzkoušet na emulátoru (i když třeba kvm možná umí přidávat tak maximálně jádra...?? nezkoušel jsem). Na úrovni hardware jsem myslel, že to lepší serverové desky i na x86 běžně umí.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 11. 2020 19:18

Adam Kalisz

Stříbrný podporovatel

Myslím hardwarově. Že to softwarově jde jsem už psal - kvůli virtualizaci to je nutné.

Kdybyste mohl poskytnout odkaz na dokumentaci, která to u konkrétního aktuálního serveru tvrdí, že to na Intelu nebo AMD lze, tak bych byl vděčný. Já jsem totiž během pár minut na nic nepřišel. Odpojují se třeba celé nody např. v blade-serveru, ale to je v podstatě počítač se svým vlastním operačním systémem a ne jen CPU + RAM.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 11. 2020 20:09

Ondrej Nemecek

Tak to nevím, možná jsem se pletl a hardware to neumí. Taky jsem nic nenašel.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
28. 11. 2020 17:21

RDa

Hotplug je typicky jen u PCIe / PCI-X, ale u pameti nebo cpu nikoliv, tam je beznejsi "chip-kill" z RAS, kdy se nefunkcni pulka vypne, jen se pak prichazi o kontrolu funkce (je to podobne jako RAID-1 - vse jede do doby kdy nastane chyba zdvojene).

Nektere specialni servery umi ale cpu hotplug, napr.:
HP ProLiant ML570 G2 Server
https://support.hpe.com/hpesc/public/docDisplay?docId=c01579159&docLocale=en_US
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
28. 11. 2020 21:21

Adam Kalisz

Stříbrný podporovatel

Obávám se, že ten hot-plug se týká jen větráků chladiče CPU a ne CPU samotného. Navíc G2 je asi fakt starý model není aktuální něco jako G10? :-)

Ano, chip-kill je mi známý. Netýká se to náhodou doslova jednolivých čipů na modulech RAM?

V praxi jsem nic z toho nezažil, obyčejně buduji HA nad několika uzly a ne v rámci uzlů samotných. Je to v praxi ekonomičtější.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
28. 11. 2020 21:41

RDa

Haha, tak to maj pekne blbe napsany :)

Osobne si nemyslim si ze existuje skutecny fyzicky hotplug v X86, mam hromadu knizek ohledne architektur do P4, a kdyz to do te doby neexistovalo (jen ten RAS a mirroring pametovych kanalu), tak nepredpokladam ze to zavedli u te nasledne "spotrebky" kterou delaj do dnesniho dne.

Mozna by Itanium mohlo byt privetivejsi (a taky ze je), ale problem hotplugu je taky moznost to jednoduse vymenit.. takze cpu musi byt na nejake cartridge, a holt doba se vyvijela tak, ze RAM je navazana tesne na CPU - takze nejde menit jenom procesor, ale musela by se menit rovnou cela police - coz je snad uz spravnej priklad: HP Integrity rx7620 (ma 2x cell board, kazdy ma svoje pameti a 4 cpu, meni se cely "cell", tj. pulka serveru)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 12. 2020 0:02

ebik

Pokud leností nazývate i to, že je certifikační proces/audit proběhl v cenově rozumné hladině pak ano. Ale obecně si myslím, že je to dáno tím, že servery se nerebootujou tak často aby zákazníka pálily jednotky minut (a někdy i desítky, nám ale vše bootuje do 5 minut) víc než spolehlivost a stabilita serveru. Ono natřískat něco funkcemi umí kdejakej "Acer" ale pak je to v servisu během záruční doby sedmkrát. To si nemůžete dovolit u serveru ani když je oprava plně hrazená.

Vlákno názorů k článku Kexec: rychlý restart bez restartu od Josef Pavlik - nikdy jsem poradne nepochopil, proc servery bootuji tak...

Dále u nás najdete

Co nového přináší Securitytrends 4/2025?

Proč přichází éra suverénních datových center?

Po Black Friday přichází Cyber Monday. Jaká je jeho historie?

Legitimní weby jsou zneužívány k manipulaci prohlížečů

Většina her už běží v Linuxu, potřebujeme ještě Windows?

Pětina lidí leží v nemocnicích zbytečně, ale není je kam přemístit

Dva nové léky na Alzheimera, mají však dost vedlejších účinků

Izraeliský hi-tech exceluje i za války v Gaze

KVÍZ: Pravda, nebo lež? Jak dobře znáte československé retroznačky?

Přehled změn v důchodech, které začnou platit v roce 2026

Zahraniční cestovní náhrady v roce 2026. 0smnást nových sazeb

Česká televize chystá projekt Tak moment pro mladé

Celková anestezie u zubaře bude na pojišťovnu, ale jen pro někoho

Nádor slinivky se ohlásil nafouklým břichem, pak přišla rychlá operace

Babišův střet zájmů potvrdil soud, Agrofert už přišel o stovky milionů

Nemoc koz ji dovedla k podnikání a založila přírodní lékárnu

Firmy nejsou připraveny na změny. Čeká je krize komunikace

V ČR vznikají čtyři velká datacentra pro AI

Získá Netflix také HBO Max? Souboj jde do finále

Neudržel telefon, nemohl předpažit. Byla to mrtvice