Názory k článku Záplatování jádra za běhu: kGraft to zvládne bez výpadku

Zasílat nově přidané názory e-mailem

Článek je starý, nové názory již nelze přidávat.

26. 6. 2017 8:26

Spider (neregistrovaný)

> Linuxový server se musí kvůli software restartovat v jediném případě: když je potřeba vyměnit jádro.

Neni pravda. Glibc, PAM, OpenSSL, atd atd.

Patchovani jadra za behu je fajn, ale dneska se malokdy patchuje jenom jadro.

Jinak dik za info, je fajn vedet, ze na tom porad nekdo dela...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 8:29

tk (neregistrovaný)

Taky mi prisla vami citovana veta jako zavadejici, az jsem byl prekvapen, ze to napsal Petr Krcmaqr :).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 8:30

tk (neregistrovaný)

Taky mi prisla vami citovana veta jako zavadejici, az jsem byl prekvapen, ze to napsal Petr Krcmar :).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 8:53

m (neregistrovaný)

openSSL ? proc ? PAM +- to same proc ? glibc to se da taky za behu. Ve skutecnosti jedina vec co nejde prehodit za behu je DBUS a jadro
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 9:18

j (neregistrovaný)

Proc by mel nekdo restartovat system kvuli OpenSSL nebo Glibc?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 9:32

Roman (neregistrovaný)

Aby se začaly používat nové opravené knihovny.
Samozřejmě není potřeba restartovat celý systém, jen relevantní daemony.
Tím ale stejně nastane výpadek služby, popadání spojení, atd...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 9:54

j (neregistrovaný)

Vazne? To uz poettering "vyresil" i tohle? Zajimavy ... sem pripojenej pres ssh, to ssh restartnu ... a neodpoji me to. Divny, asi delam neco spatne.

Pricemz stejne se umi chovat naproto cokoli, co se drzi od poetteringa co nejdal.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 10:12

Roman (neregistrovaný)

I databáze mysql, postresql?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 10:28

Kate

Stříbrný podporovatel

Jo tak, SSH je perfektní ukázka služby a to že lze restartovat bez výpadku spojení znamená, že všechny ostatní taky. Hmm…
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 10:45

Czz (neregistrovaný)

Nie, restart sshd cez systemctl funguje rovanko.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 11:04

Michal Pastrňák

Ne, není to vůbec divný, protože sshd běží jako daemon, na kterýho se připojuješ a po připojení vytvoří klientovi další proces. Pokud přes ssh session vypneš běžným způsobem ssh, killneš daemona, ale proces pro uživatele běží tak dlouho, dokud se neodpojíš. Pak už se samozřejmě znova nepřipojíš. A když patchneš a restartneš ssh, nový připojení poběží na nové verzi, ale světe div se, to starý připojení se nijak magicky nepřepne a běží pořád na staré verzi. Takže to není zrovna skvělá ukázka patchování běžícího procesu za běhu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 19:47

Adam Přibyl

Patchovani to neni, ale resi to cely problem velmi elegantne. Proste stare spojeni bezi sice na starych verzich, ale vsechny nove uz na novych. S posledni starou session zmizi i stara verze. Sluzba ma nepreruseny chod a i za behu stare si lze vyzkouset ze ty nove funguji taky. Bohuzel to jiz dnes neni standard, naopak vznikaji offline aktualizacni mechanismy, protoze to je predsi jednodussi, nez se starat o to aby to update mohl probehnout online. A nelze si nepripomenout systemd, ktery pri online aktualizaci je schopen jit totalne do kopru, protoze mu zmizi nejaky zivotne dulezity symlink.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 19:54

j (neregistrovaný)

Tj, ono je mnohem skvelejsi, kdyz si online patchnes kernel, a pak se ti zhrouti systemd. Nebo jeste lip, kdyz si to patchovani pustis ve screenu, protoze vazne ale vubec nechces aby to zbuchlo kdyz treba padne net ... a poettering ti ho killne.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 10:19

dustin (neregistrovaný)

Přeci jen je veliký rozdíl mezi restartem/krátkodobým výpadkem služby a rebootem celého serveru.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 12:31

Peter Fodrek

To by už nemalo byť pravdou

KernelCare Is Another Alternative To Canonical's Ubuntu Live Kernel Patching
Written by Michael Larabel in Proprietary Software on 21 October 2016

KernelCare isn't limited to just Ubuntu 16.04 but also works with Ubuntu 14.04 and other distributions such as CentOS/RHEL, Debian, and other enterprise Linux distributions.

Another big difference to Canonical's Livepatch is that KernelCare does support rollback functionality while Canonical doesn't appear to support it at this time. KernelCare can also handle custom patches, 32-bit support, and they share they plan to soon begin offering livepatching support for glibc, OpenSSL, and QEMU.
https://www.phoronix.com/scan.php?page=news_item&px=KernelCare-Ubuntu-Alternative

A kCraft má jednoduchý rollback, v podstate prepísaním JMP na INT 3, len ten PAM to nebol spomenutý, ale keď vedia glibc, tak nie je "veľmi ťažké" robiť update akejkoľvek knižnice, a ak ide QEMU, tak ide updateovať akékoľvek aplikácia vrátne SSH.

Kerene,lom sa začalo preto, lebo tam sa reálne objaví najviac problémov, a ak ide kernel, dá sa to použiť na knižnice a potom na programy...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 9:17

j (neregistrovaný)

Mno, na hrani hezky ... bych chtel videt admina, kterej bude riskovat patch naprosto cehokoli na necem, co se nemuze restartovat a tim padem to nesmi zbuchnout.

Bych tak nejka cekal, ze specielne ty "velky" datacentra to maj zarizeny tak, ze vypadek(a tudiz i restart) cehokoli neni problem.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 11:01

Jan Forman

Přiznám se, že bych taky očekával normální restart serverů, jejichž funkci přebere jiný stroj v dané chvíli.
Tohle je sice zajímavé, ale přijde mi to trošku děsivé...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 11:29

m-bi (neregistrovaný)

[...] jejichž funkci přebere jiný stroj v dané chvíli [...]

podle mne je to ekonomicka otazka. Jestlize je ten stroj (s temi TB pameti, jak se pise v clanku) , tak tenhle stroj neco stoji a kvuli rebootu by musel mit provozovatel 2 takove drahe zarizeni. V takovych pripadech bych se asi taky rozhodl pro patchovani zabehu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 11:35

Michal Pastrňák

Hlavně ty služby na tom serveru asi něco stojí a provozovatel jich MUSÍ mít víc, aby se měly kam přehodit. Spíš je problém v tom, že ne každá služba se dá provozovat takovým způsobem, aby se přepla bez výpadku. U nějakých webíků to moc nevadí, pokud 10 vteřin nepojedou, ale jsou i takové služby, jejichž shození/nahození není tak triviální, je třeba shodit a nahodit více komponent v určitém pořadí, je třeba vyřešit konzistenci...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 13:01

m (neregistrovaný)

plus treba SAP HANA jen na kill reaguje u vetsich instanci pres 20 minut a nahozeni nahoru muze jit i pres hodinu....

A kazda minuta vypadku techto systemu je nechutne draha
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 13:08

Michal Pastrňák

Tak SAP je kapitola sama pro sebe. Kvůli javovským instancím jsem se musel naučit několik indiánských tanců a satanistických rituálů.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 13:18

j (neregistrovaný)

Jenze ty veci u kterych shozeni vadi (nebo hur, zpusobi financni ztraty, klidne v MKc) nebo nikdo nikdy ani patchovat.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 12:48

Martin Šoch (neregistrovaný)

Je mi mnohem bližší filozofie, že se celá služba rovnou vytváří s tím, že s výpadkem se počítá. A že žádné bestie s mnoha TB RAM vůbec nejsou potřeba, všechno běží na komoditním hardware.

Pak tyhle problémy odpadají už z principu.

Ale třeba existují aplikace, kde to takhle z nějakého důvodu nejde a já jsem rád, že s nimi nepřijdu do kontaktu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 12:56

Michal Pastrňák

Ona ta bestie s mnoha TB RAM má svoje výhody, obzvlášť pro velká datacentra. Zabere mnohem méně místa, mnohem lépe se dají využívat dostupné zdroje, něco se ušetří na energiích...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 13:07

m (neregistrovaný)

jakakoliv inmemory databaze .. A rozhodne bys tychle broucky nechtel jet na komoditnim HW
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 13:10

Michal Pastrňák

No co, z inmemory databáze se udělá inswap databáze. Blbý je, že ani Hanči, ano Oráklu se to pak moc nelíbí...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 21:24

Tomas (neregistrovaný)

tahle filozofie je OK, jenze SUSE je ziva ne od tech malych uzivatelu, ale od tech par korporaci a pro ne se to dela.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 14:39

kallsyms

Celkem zajímavý postup.

Jak funguje případ, kdy se mění funkce na funkci s jiným počtem parametrů? Jak nahradit funkci atomicky je jasné, ale jak se atomicky nahradí všechny její volání?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 15:03

Jiri Kosina (neregistrovaný)

V takovem pripade je potreba opatchovat (tedy vymenit) i volajici funkce.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 15:13

Ondra Satai Nekola

Zlatý podporovatel

Pocitam, ze tenhle postup (neprekvapive) selze trebas pokud se dotahuji 3rd party moduly? Resp. ze takove moduly museji byt obdobne opatchovane, nez lze patchovat zbytek?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 15:16

Jiri Kosina (neregistrovaný)

Ano.

3rd party moduly maji obecne problem kdykoliv se zmeni interni kernelove API/ABI ve smyslu, ze musi byt beztak rekompilovany. Takze v tomto ohledu nejsou vzhledem k live patchovani zase tak specialni.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 15:50

kallsyms

Tomu rozumím, ale nevím, jak se to udělá atomicky - aby nepřišlo volání opatchované funkce se změněným počtem parametrů z funkce, která ještě opatchovaná není? Podle článku lze atomicky vyměnit 5 bajtů za jmp instrukci, ale to v tomhle případě přece nestačí.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 15:54

Jiri Kosina (neregistrovaný)

Redirekce se dela pres trampolinu, ktera teprve rozhoduje, jestli uz je vporadku zavolat novy kod, nebo jestli je jeste potreba z konzistencnich duvodu (nez patchovani skonci) volat kod stary. To je prave to rozhodovani o "verzi vesmiru", ve ktere se dany kontext nachazi. A to je to misto, kde lze udelat atomicky switch (zjednodusene se v tu chvili jedna uz o jednobitovy flag).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 15:11

Petr M (neregistrovaný)

Pokud se nemění počet a typ parametrů, není potřeba na volání sahat. Pokud jo, je asi jednodušší napsat novou funkci, natáhnout do paměti a postupně na ni přehodit funkce, co volají tu původní... Původní pak není potřeba měnit (samozřejmě za předpokladu, že interně nepoužívá statickou proměnnou apod.).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 19:53

Marek Knápek

Za prvé: Windows má tohleto "už sto let", nevím jak pro jádro, ale pro user space knihovny (user32.dll, kernel32.dll, …) určitě. Používají to některé opravy přicházející skrze Windows Update. Na začátek funkce se přidá sedm bajtů, dva pro "jmp near", a pět pro INT3. Těch pět může patchovací mechanismus v klídku neatomicky přepsat na "jmp far" a později atomicky přepsat "jmp near" na "nop nop". Odskok, jak už tu bylo zmíněno, může být někam do trampolíny, která rozhodne, jestli se bude volat nová varianta funkce nebo původní. Může také přepnout všechny patchovane funkce najednou.

Za druhé: Atomicky vyměnit osm bajtů na x86 samozřejmě lze. Předchází se tak ABA problému u lock-free datových struktur. Ale pro volání kódu (a tedy patchovani kódu za běhu) je to nepoužitelné.

Marek
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 19:58

j (neregistrovaný)

Jo a proto chtej widle po kazdy aktualizaci restart ... hmm ... a proto sebou widle tahnou vsechny verze vseho uz od dob DOSu ... jen verzi knihoven dx bych napocital tak kolem stovky.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 20:05

Marek Knápek

Schválně jsem napsal některé aktualizace. Mechanismus tam je, že se nevyužívá, je věc jiná.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 20:35

Lol Phirae (neregistrovaný)

Za prvé: Windows má tohleto "už sto let", nevím jak pro jádro, ale pro user space knihovny (user32.dll, kernel32.dll, …) určitě.

Tak určitě... :-DDDDDDDDDDD
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 20:41

Marek Knápek

Tak určitě pro veřejnost minimálně od verze Visual Studio 2005. Pro potřeby Microsoftu možná už dříve. Mrkni na přepínače kompilátoru a linkeru /hotpatch a /FUNCTIONPADMIN.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 21:12

Lol Phirae (neregistrovaný)

Jojo, a nepoužívá se to protože bagr. :-DDD
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 21:07

Jiri Kosina (neregistrovaný)

Za prvé: Windows má tohleto "už sto let", nevím jak pro jádro, ale pro user space knihovny (user32.dll, kernel32.dll, …) určitě. Používají to některé opravy přicházející skrze Windows Update</strongi>

O windows vim jen z doslechu, ale co jsem slysel, tak ten mechanismus (tak jak ho popisujete, tzn. s tim docela peknym trikem pres short jmp tesne pred funkci) tam kdysi meli, ale nepouzivali ho, a ted uz to tam snad ani negeneruji. Ale je to zarucena zprava od agentury JPP.

Za druhé: Atomicky vyměnit osm bajtů na x86 samozřejmě lze. Předchází se tak ABA problému u lock-free datových struktur. Ale pro volání kódu (a tedy patchovani kódu za běhu) je to nepoužitelné.

Mate pravdu, je to tam napsano nepresne, a pri kontrolnim cteni textu jsem si toho nevsiml. Ve strucnosti jde o to, ze vymenu nopu za (far)jmp+adresa nelze udelat atomicky, a pro kod je potreba stejne prepisovani pres INT3 delat kvuli CPU (i kdyby byl short), ktere muze byt zrovna dany kus uz fetchnuty do pipeline resp. I$ (kde se koherence a-la MESI neprovadi).
Prilezitostne poslu Petrovi Krcmarovi nejaky navrh na reformulaci, diky za pripominku.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 22:35

Marek Knápek

Upřesnění: Windows mají na začátku funkcí "dvoubajtový nop" v podobě mov edi, edi a pět vyhrazených bajtů před funkcí, které by tam s nejvyšší pravděpodobností byly tak jako tak kvůli zarovnání. Mám k dispozici Windows 7 32 bit a tento pattern tam stále je (minimálně v user-space kernel32.dll, kernelbase32.dll a ntdll.dll). Marek.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 23:17

Lol Phirae (neregistrovaný)

Úplně nejpřesnější přesné upřesnění: Bez rebootu nezaktualizuješ ani pitschu!
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 6. 2017 22:22

Marek Knápek

Oprava mého předchozího příspěvku: Windows má na začátku patchovatelné funkce instrukci mov edi, edi (která se chová jako dvoubajtový nop). A pět volných bajtů před funkcí.

Těch pět bajtů mohou přepsat na skok typu "far jmp" někam do trampolíny a potom atomicky přepsat ten "fancy nop" na skok typu "near jmp" na ten plnohodnotný "far jmp".
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 6. 2017 7:00

Petr M (neregistrovaný)

Jenomže ve finále tohle má pár knihoven, zbytek je v .NETu a běží na VM, takže se stejně musí kompilovat všechno nad jádrem -> reboot.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 6. 2017 9:48

Kate

Stříbrný podporovatel

Windows má tohleto už „sto let“ možná pro pár věcí, ten zbytek vynucuje restart OS, protože zamykání souborů. Vyměnit za běhu systémové knihovny a použít je prostým restartem aplikací prostě nejde, musí se otočit celý systém a ještě čekat na rozkopírování souborů před vypnutím a při startu OS. Takže jakýkoliv výpadek serveru při update je ještě delší než by být musel. Prostě super! :)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
29. 6. 2017 8:47

Zdeněk Sojka

Postup patchování:
- nahradit NOPy za INT3
- nahradit INT3 od konce za instrukci skoku

Má velký problém v případě, že přijde přerušení v momentě, kdy procesor zpracovává NOPy. Po návratu z přerušení pak bude pokračovat v polovině instrukce skoku.

Jak je zaručeno, že GCC vygeneruje 5x NOP a ne jeden pětibajtový NOP? Přepis části této instrukce na INT3 by mohlo způsobit pád.

Všechny běžně používané procesory umožňují atomicky zapsat 8 bytů - a určitě všechny používané v serverech.

Přišly by mi lepší dvě řešní:
a) namísto 5x NOP použít pětibajtový NOP a výměnu provést atomicky (pomocí cmpxchg8b; instrukce musí být v jedné cache line)
b) pokud cmpxchg8b není podporované (nějaká 80486 nebo Pentium či alternativy) a přesto patchování za běhu chcete, pak namísto 5x NOP použít skok s offsetem 0, a offset za běhu přepsat (způsobí flush pipeline a instrukce skoku musí být v jedné cache line)
Obě řešení předpokládají možnost atomického zápisu tím, že zapisovaný kód je v jedné cache line - to bych ale předpokládal, že bude vždy (funkce jsou běžně zarovnány na 16B). Nebo je právě tohle důvod, proč bylo zvoleno řešení s přepisem po bytech?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
29. 6. 2017 15:07

Jiri Kosina (neregistrovaný)

Má velký problém v případě, že přijde přerušení v momentě, kdy procesor zpracovává NOPy. Po návratu z přerušení pak bude pokračovat v polovině instrukce skoku.
Jak je zaručeno, že GCC vygeneruje ...

Bohužel jste narazil na to, že popis procesu výměny instrukcí byl pro účely přednášky/článku samozřejmě ochuzen, kvůli zjednodušení, o spoustu a spoustu detailů.

- NOPy negeneruje GCC, kernel si je do prologu funkcí přidává při bootu sám na místo, kam nechal původně gcc vygenerovat profilovací call (který se nepoužije).

- kernel používá (na x86_64) pětipajtový atomický nop ( ASM_NOP5_ATOMIC)

- dělá se vždy atomicky replace posledních čtyř bajtů za situace, kdy už je v prvním předem připraven INT3 bajtů opcode,

- pak se změní první bajt z INT3 na první bajt nového opcode

- mezitím se vždy dělá "magie", která zaručí, že CPU se "sesynchronizuje s realitou" (ve smyslu I$ a prefetchnutych instrukci), a to přes IRET-to-self. Důležité je to především po vložení INT3 do prvního bajtu, ale dělá se i mezi ostatními fázemi. Dle explicitního vyjádření Intelu jsou tyto ostatní synchronizace kromě té po vložení INT3 nadbytečné na Intel CPU, ale u AMD jsou pravděpodobně potřeba, proto je tam raději máme vždy.

namísto 5x NOP použít pětibajtový NOP a výměnu provést atomicky (pomocí cmpxchg8b; instrukce musí být v jedné cache line)

Tímhle ten procesor sesypete IMO asi celkem spolehlivě, protože vůbec nevíte, v jakém stavu byla I$ a kolik toho bylo prefetchnuto.

pak namísto 5x NOP použít skok s offsetem 0, a offset za běhu přepsat (způsobí flush pipeline a instrukce skoku musí být v jedné cache line)

Stejný argument jako výše -- výměna je atomická ve smyslu, že CPU + memory controller zajistí, že při vykonávání instrukci pro čtení z paměti je vždy vidět konzistentní hodnota. Vzhledem k I$ a pipeline toho atomicita příliš nezaručuje. Pokud v prvním bajtu pětibajtového NOPu nebudete mít INT3, tak se CPU může při takovéto výměně dostat do náhodného stavu.

Tím, že se ten breakpoint dá na začátek pětibajtového nopu (a tudíž CPU trapne korektně za kterékoliv situace) se zajistím bezproblémová výměna jak prvního, tak zbylých bajtů.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
29. 6. 2017 21:21

Zdeněk Sojka

Díky za vysvětlení. V článku jsem se chytnul dvou věcí, které se mi nezdály:
- 5x NOP (namísto pětibytového nopu)
- "maximální atomický zápis 4 bytů"
- no a práce s patchováním na 0xcc a pak ošetřováním interruptu mi přišla zbytečně komplikovaná a potenciálně problematická, protože INT3 může být použit i jinak (při debugování)

Ad "NOPy negeneruje GCC" - znáte přepínač gcc -pg -mnop-mcount? Pak dostanete 5B NOPy už přímo z GCC, čímž si můžete ušetřit práci - pokud tedy současné chování není úmyslné.

Předpokládám, že tedy patchování probíhá následovně:
- přepis prvního byte na 0xCC
- IPI na všechny CPU, s tím, že musím počkat, než bude všude přijato (pro synchronizaci instrukčního dekodéru)
- pokud infrastruktura neumožňuje IPI sám sobě, provedu IRET ručně (jak píšete)
- přepsání offsetu
- znovu sync (kvůli AMD)
- přepsání 0xCC -> 0xE9
- znovu sync (kvůli AMD)
Je to takhle?

Byl jsem si celkem jistý, že instrukční dekodér vždy přečte zarovnaný 16B blok atomicky, proto by nemělo použití atomických operací při zarovnaném začátku vadit - ale můžu se pléct; i kdyby to takhle měl Intel, pořád jsou i další výrobci x86 procesorů.

Popsaný postup je tedy nakonec asi neprůstřelný.

Možná bych ale čekal mnohem jednodušší řešení - nový kernel slinkovat s .text na jinou adresu, a jen změnit entry pointy na nový kernel (to nejde udělat atomicky, ale v současném řešení to atomické taky není). Ostatní sekce (.data, .bss) musí být stejné, jinak by různé části kódu (nová a stará) používaly jiné adresy. Možná je nějaký zřejmý důvod, proč to nejde (např. některé adresy v kernelu jsou pevně dané). Co jsem přehlédl?

Díky
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
30. 6. 2017 9:53

Jiri Kosina (neregistrovaný)

potenciálně problematická, protože INT3 může být použit i jinak (při debugování)

To máte pravdu, ale je to uděláno tak, že int3 exception handler může snadno detekovat zda-li se jedná o trap z debugovacího int3, nebo int3 kvůli live výměně instrukcí (protože víme, kde zrovna patchujeme), a podle toho se zachovat.

Ad "NOPy negeneruje GCC" - znáte přepínač gcc -pg -mnop-mcount? Pak dostanete 5B NOPy už přímo z GCC, čímž si můžete ušetřit práci - pokud tedy současné chování není úmyslné.

Ano, gcc má několik různých způsobů, jak vygenerovat NOPy do prologu. Je v tom docela nepořádek, některé z těch options jsou pouze pro některé architektury (např. ta kterou zmiňujete Vy pouze pro x86), nejsou kompatibilní s některými jinýmu důležitými options (např. opět Vámi zmiňovaná nemůže být použita společně s -fPIC). Mezi další (většinou opět arch-specific, ale pro jiné architektury) patří např. -mhotpatch, -mprofile-kernel, atd.

BTW pouze -pg nestačí, protože ten bohužel ten profilovací kód vygeneruje až za prolog, což už je dost pozdě. Je potřeba -mfentry.

V současné době se snažíme do gcc procpat obecnou option, která bude nezávislá na architektuře i čemkoliv ostatním, a bude generovat do prologu funkce potřebné (volitelné) množství NOPů.
I tak to ale budeme používat nadále jen pro rezervaci místa, a kernel si to bude při bootu přepatchovávat, protože se tam vždy dávají ideální / optimální NOPy pro dané CPU.

Předpokládám, že tedy patchování probíhá následovně:

Ano, popsal jsem to správně. Viz také changelog a komentáře commitu, kterým jsem tohle do kernelu přidával:

http://git.kernel.org/linus/fd4363fff3d96795d3feb1b3fb48ce590f186bdd

Možná bych ale čekal mnohem jednodušší řešení - nový kernel slinkovat s .text na jinou adresu, a jen změnit entry pointy na nový kernel

Tomu asi ne úplně přesně rozumím -- máte na mysli nahrát komplet celý .text celého vyměněného kernelu na nějaké jiné místo v paměti, a přesměrovat IDT/GDT, exception tables, apod?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 7. 2017 6:51

Zdeněk Sojka

Děkuji za upřesnění.

<i>Tomu asi ne úplně přesně rozumím -- máte na mysli nahrát komplet celý .text celého vyměněného kernelu na nějaké jiné místo v paměti, a přesměrovat IDT/GDT, exception tables, apod?</i>
Ano, tak jsem to myslel - byla by to první věc, kterou bych zkusil, kdybych měl za úkol vyměnit kernel za běhu. Pokud je možné vyměnit entry pointy s kGraft, pak by to mělo být možné i při výměně celé .text sekce. Ale dost možná bych narazil na nepřekonatelné problémy, které jsou mnohým zřejmé; linuxový kernel moc neznám. Nebo je řešení s kGraft jednoduše lepší.
- Zobrazit celé vlákno