Hlavní navigace

Sandboxing se systemd: zesílení ochrany služeb pomocí namespaces

21. 1. 2022
Doba čtení: 9 minut

Sdílet

 Autor: Depositphotos
Systemd implementuje řadu bezpečnostních funkcí, které umožňují provozovat služby odděleně a snížit riziko úspěšného napadení systému. Ukážeme si, jak jednoduše analyzovat aktuální situaci a vylepšit ji.

Žijeme v době, kdy jsou počítačové útoky na denním pořádku. Součástí práce každého administrátora je tedy snížit riziko úspěšného útoku pokud možno na minimum. Pomáhá nám k tomu také oddělení jednotlivých služeb (sandboxing), které zajistí, že v případě úspěšného prolomení jedné služby neohrozíme vše ostatní.

Toho můžeme dosáhnout mnoha různými způsoby jako jsou například AppArmor či SELinux nebo můžeme služby oddělit pomocí kontejnerů nebo virtualizace. Účinný nástroj nám však nabízí moderní linuxový systém samotný.

Většina dnešních linuxových distribucí používá systemd jako správce služeb a základní stavební kámen celého systému. Novější verze systemd umožňují využít namespaces (česky jmenné prostory), které dovolují lepší oddělení jednotlivých procesů a zlepšují tím jejich bezpečnost. Ukážeme si, jak prověřit aktuální stav v systému a jak pomocí konfigurace docílit zlepšení.

Analýza situace

Pro získání rychlého přehledu o situaci se nám hodí nástroj systemd-analyze, který dokáže sledovat spoustu parametrů systému od bootu až po jednotlivé služby. Nás bude zajímat jeho schopnost zkontrolovat bezpečnost služeb a oznámkovat ji. Nástroj se stal součástí systemd ve verzi 240 vydané v prosinci roku 2018.

Provedeme to pomocí parametru security. Pokud za ním neuvedeme název žádné služby, provede utilita průzkum všech spuštěných služeb a vypíše stav v jednoduché tabulce. Tabulka obsahuje název služby (unit file), stupeň odhalení (exposure) a slovní hodnocení (predicate).

Číselné hodnocení znamená míru rizika a nabývá hodnot od 0,0 do 10,0. Čím méně, tím lépe. Vyšší hodnoty znamenají slabé oddělení od ostatních služeb, nízké pak naopak více restrikcí a přísnější svázání služby. Je třeba si uvědomit, že se měří jen vlastnosti samotného systemd, ne bezpečnost procesu samotného. Do ní utilita nevidí a nedokáže ji posoudit.

Nehodnotí se tu tedy zranitelnost jednotlivých služeb, ale míra využití možností nabízených systemd k jejich svázání. Vysoká hodnota tedy jednoduše říká, že je tu co zlepšovat. Jdeme rovnou vyzkoušet, jak jsme na tom:

# systemd-analyze security
UNIT                                 EXPOSURE PREDICATE HAPPY
console-getty.service                     9.6 UNSAFE    :-{
container-getty@0.service                 9.6 UNSAFE    :-{
container-getty@1.service                 9.6 UNSAFE    :-{
container-getty@2.service                 9.6 UNSAFE    :-{
container-getty@3.service                 9.6 UNSAFE    :-{
cron.service                              9.6 UNSAFE    :-{
dbus.service                              9.6 UNSAFE    :-{
emergency.service                         9.5 UNSAFE    :-{
getty@tty1.service                        9.6 UNSAFE    :-{
mariadb.service                           6.5 MEDIUM    :-|
nginx.service                             9.6 UNSAFE    :-{
php7.4-fpm.service                        9.6 UNSAFE    :-{
rc-local.service                          9.6 UNSAFE    :-{
rescue.service                            9.5 UNSAFE    :-{
rsync.service                             8.5 EXPOSED   :-(
rsyslog.service                           9.6 UNSAFE    :-{
ssh.service                               9.6 UNSAFE    :-{
systemd-ask-password-console.service      9.4 UNSAFE    :-{
systemd-ask-password-wall.service         9.4 UNSAFE    :-{
systemd-fsckd.service                     9.5 UNSAFE    :-{
systemd-initctl.service                   9.4 UNSAFE    :-{
systemd-journald.service                  4.3 OK        :-)
systemd-logind.service                    2.6 OK        :-)
systemd-networkd.service                  2.9 OK        :-)
systemd-timesyncd.service                 2.1 OK        :-)
systemd-udevd.service                     8.0 EXPOSED   :-(
user@0.service                            9.8 UNSAFE    :-{

Vidíte, že většina služeb v systému není nijak uzavřena, proto je analyzátor hodnotí špatně. Výjimkou jsou vestavěné služby, které přímo patří k systemd. Tam si dali správci tu práci a část možností v konfiguračních souborech rovnou zapnuli. U zbytku služeb je to ale na nás.

Prohlídka konkrétní služby

Nejlepší je se zaměřit na služby, které poslouchají na síti a přijímají vstupy od uživatelů. Ty jsou nejzranitelnější a obvykle to jsou také ty, které by mohly v systému napáchat nejvíce škody. V našem případě je to tedy webový server Nginx. Můžeme se na něj rovnou podívat detailněji:

# systemd-analyze security nginx.service

  NAME                                                        DESCRIPTION                                                             EXPOSURE
✗ PrivateNetwork=                                             Service has access to the host's network                                     0.5
✗ User=/DynamicUser=                                          Service runs as root user                                                    0.4
✗ CapabilityBoundingSet=~CAP_SET(UID|GID|PCAP)                Service may change UID/GID identities/capabilities                           0.3
✗ CapabilityBoundingSet=~CAP_SYS_ADMIN                        Service has administrator privileges                                         0.3
✗ CapabilityBoundingSet=~CAP_SYS_PTRACE                       Service has ptrace() debugging abilities                                     0.3
✗ RestrictAddressFamilies=~AF_(INET|INET6)                    Service may allocate Internet sockets                                        0.3
✗ RestrictNamespaces=~CLONE_NEWUSER                           Service may create user namespaces                                           0.3
✗ RestrictAddressFamilies=~…                                  Service may allocate exotic sockets                                          0.3
✗ CapabilityBoundingSet=~CAP_(CHOWN|FSETID|SETFCAP)           Service may change file ownership/access mode/capabilities unrestricted      0.2
✗ CapabilityBoundingSet=~CAP_(DAC_*|FOWNER|IPC_OWNER)         Service may override UNIX file/IPC permission checks                         0.2
✗ CapabilityBoundingSet=~CAP_NET_ADMIN                        Service has network configuration privileges                                 0.2
✗ CapabilityBoundingSet=~CAP_SYS_MODULE                       Service may load kernel modules                                              0.2
✗ CapabilityBoundingSet=~CAP_SYS_RAWIO                        Service has raw I/O access                                                   0.2
✗ CapabilityBoundingSet=~CAP_SYS_TIME                         Service processes may change the system clock                                0.2
✗ DeviceAllow=                                                Service has no device ACL                                                    0.2
✗ IPAddressDeny=                                              Service does not define an IP address allow list                             0.2
✓ KeyringMode=                                                Service doesn't share key material with other services
✗ NoNewPrivileges=                                            Service processes may acquire new privileges                                 0.2
✓ NotifyAccess=                                               Service child processes cannot alter service state
✗ PrivateDevices=                                             Service potentially has access to hardware devices                           0.2
✗ PrivateMounts=                                              Service may install system mounts                                            0.2
✗ PrivateTmp=                                                 Service has access to other software's temporary files                       0.2
✗ PrivateUsers=                                               Service has access to other users                                            0.2
✗ ProtectClock=                                               Service may write to the hardware clock or system clock                      0.2
✗ ProtectControlGroups=                                       Service may modify the control group file system                             0.2
✗ ProtectHome=                                                Service has full access to home directories                                  0.2
✗ ProtectKernelLogs=                                          Service may read from or write to the kernel log ring buffer                 0.2
✗ ProtectKernelModules=                                       Service may load or read kernel modules                                      0.2
✗ ProtectKernelTunables=                                      Service may alter kernel tunables                                            0.2
✗ ProtectProc=                                                Service has full access to process tree (/proc hidepid=)                     0.2
✗ ProtectSystem=                                              Service has full access to the OS file hierarchy                             0.2
✗ RestrictAddressFamilies=~AF_PACKET                          Service may allocate packet sockets                                          0.2
✗ RestrictSUIDSGID=                                           Service may create SUID/SGID files                                           0.2
✗ SystemCallArchitectures=                                    Service may execute system calls with all ABIs                               0.2
✗ SystemCallFilter=~@clock                                    Service does not filter system calls                                         0.2
✗ SystemCallFilter=~@debug                                    Service does not filter system calls                                         0.2
✗ SystemCallFilter=~@module                                   Service does not filter system calls                                         0.2
✗ SystemCallFilter=~@mount                                    Service does not filter system calls                                         0.2
✗ SystemCallFilter=~@raw-io                                   Service does not filter system calls                                         0.2
✗ SystemCallFilter=~@reboot                                   Service does not filter system calls                                         0.2
✗ SystemCallFilter=~@swap                                     Service does not filter system calls                                         0.2
✗ SystemCallFilter=~@privileged                               Service does not filter system calls                                         0.2
✗ SystemCallFilter=~@resources                                Service does not filter system calls                                         0.2
✓ AmbientCapabilities=                                        Service process does not receive ambient capabilities
✗ CapabilityBoundingSet=~CAP_AUDIT_*                          Service has audit subsystem access                                           0.1
✗ CapabilityBoundingSet=~CAP_KILL                             Service may send UNIX signals to arbitrary processes                         0.1
✗ CapabilityBoundingSet=~CAP_MKNOD                            Service may create device nodes                                              0.1
✗ CapabilityBoundingSet=~CAP_NET_(BIND_SERVICE|BROADCAST|RAW) Service has elevated networking privileges                                   0.1
✗ CapabilityBoundingSet=~CAP_SYSLOG                           Service has access to kernel logging                                         0.1
✗ CapabilityBoundingSet=~CAP_SYS_(NICE|RESOURCE)              Service has privileges to change resource use parameters                     0.1
✗ RestrictNamespaces=~CLONE_NEWCGROUP                         Service may create cgroup namespaces                                         0.1
✗ RestrictNamespaces=~CLONE_NEWIPC                            Service may create IPC namespaces                                            0.1
✗ RestrictNamespaces=~CLONE_NEWNET                            Service may create network namespaces                                        0.1
✗ RestrictNamespaces=~CLONE_NEWNS                             Service may create file system namespaces                                    0.1
✗ RestrictNamespaces=~CLONE_NEWPID                            Service may create process namespaces                                        0.1
✗ RestrictRealtime=                                           Service may acquire realtime scheduling                                      0.1
✗ SystemCallFilter=~@cpu-emulation                            Service does not filter system calls                                         0.1
✗ SystemCallFilter=~@obsolete                                 Service does not filter system calls                                         0.1
✗ RestrictAddressFamilies=~AF_NETLINK                         Service may allocate netlink sockets                                         0.1
✗ RootDirectory=/RootImage=                                   Service runs within the host's root directory                                0.1
  SupplementaryGroups=                                        Service runs as root, option does not matter
✗ CapabilityBoundingSet=~CAP_MAC_*                            Service may adjust SMACK MAC                                                 0.1
✗ CapabilityBoundingSet=~CAP_SYS_BOOT                         Service may issue reboot()                                                   0.1
✓ Delegate=                                                   Service does not maintain its own delegated control group subtree
✗ LockPersonality=                                            Service may change ABI personality                                           0.1
✗ MemoryDenyWriteExecute=                                     Service may create writable executable memory mappings                       0.1
  RemoveIPC=                                                  Service runs as root, option does not apply
✗ RestrictNamespaces=~CLONE_NEWUTS                            Service may create hostname namespaces                                       0.1
✗ UMask=                                                      Files created by service are world-readable by default                       0.1
✗ CapabilityBoundingSet=~CAP_LINUX_IMMUTABLE                  Service may mark files immutable                                             0.1
✗ CapabilityBoundingSet=~CAP_IPC_LOCK                         Service may lock memory into RAM                                             0.1
✗ CapabilityBoundingSet=~CAP_SYS_CHROOT                       Service may issue chroot()                                                   0.1
✗ ProtectHostname=                                            Service may change system host/domainname                                    0.1
✗ CapabilityBoundingSet=~CAP_BLOCK_SUSPEND                    Service may establish wake locks                                             0.1
✗ CapabilityBoundingSet=~CAP_LEASE                            Service may create file leases                                               0.1
✗ CapabilityBoundingSet=~CAP_SYS_PACCT                        Service may use acct()                                                       0.1
✗ CapabilityBoundingSet=~CAP_SYS_TTY_CONFIG                   Service may issue vhangup()                                                  0.1
✗ CapabilityBoundingSet=~CAP_WAKE_ALARM                       Service may program timers that wake up the system                           0.1
✗ RestrictAddressFamilies=~AF_UNIX                            Service may allocate local sockets                                           0.1
✗ ProcSubset=                                                 Service has full access to non-process /proc files (/proc subset=)           0.1

→ Overall exposure level for nginx.service: 9.6 UNSAFE :-{

Je tu velká spousta dostupných voleb, jejich popis a „trestné body“, které nám za jejich nevyužití analyzátor přidělil. Na posledním řádku je opět souhrn s celkovým počtem bodů.

Dostupných mechanismů omezení služby je celá řada, nezbývá nám než se ponořit do dokumentace. Naštěstí je v ní vše velmi dobře popsáno a vysvětleno.

Uzavíráme službu

Nyní budeme potřebovat upravit unit file, tedy soubor definující službu. Jedná se o jednoduchý textový konfigurační soubor, ve kterém je definováno, jak se služba jmenuje, jak se spouští a vypíná a případně řada dalších doplňkových vlastností.

Soubory jednotlivých služeb jsou umístěny v /lib/systemd/system/, ale needitujte je tam. Aktualizace systému by vám je přepsala. Místo toho použijte příkaz systemctl edit, který vytvoří doplňkový konfigurační soubor v  /etc/systemd/system/. Ten bude při práci se službou přidán k původnímu souboru a protože má vyšší prioritu, přepíše výchozí hodnoty. Co v něm uvedeno nebude, to bude použito z původního souboru.

# systemctl edit nginx.service

[Service]
PrivateDevices=true
ProtectControlGroups=true
ProtectHome=true
ProtectKernelTunables=true
ProtectSystem=full
PrivateTmp=true

Připsali jsme několik voleb, jmenovitě: PrivateDevices zakáže přístup do /dev/, ProtectControlGroups  připojí hierarchii cgroups pouze ke čtení, ProtectHome znepřístupní adresáře  /home, /root a /run/user, ProtectKernelTunables znepřístupní zápis do jaderných voleb v /proc  a /sys, ProtectSystem připojí /etc a /usr pouze ke čtení a PrivateTmp připojí do prostředí služby její soukromý odkládací adresář.

Nyní musíme systému říct, aby si nové konfigurace všiml a spustil pomocí ní zmíněnou službu.

# systemctl daemon-reload
# systemctl restart nginx.service

Co dále omezovat

Pomocí volby CapabilityBoundingSet je možné vybrat, jaké capabilities má služba k dispozici. Je tak možné například explicitně zvolit, že může otevírat síťové porty, vytvářet potomky a měnit jejich vlastníka a podobně.

S pomocí SystemCallFilter je zase možné vybrat, jaké syscally může služba využívat. Můžete je buď vyjmenovat explicitně nebo použít připravené sady. Jednou z nich je například sada @system-service, která obsahuje nejběžnější volání používaná službami.

Důležitá je možnost omezovat přístup k souborovému systému. Můžeme povolit přístup jen k vybraným adresářům, určovat, kam může služba zapisovat nebo dokonce připojit do jejího prostoru celý souborový systém jen pro čtení. Většina služeb ovšem vyžaduje možnost zápisu do některých svých adresářů, což můžeme povolit pomocí volby  BindPaths=, za kterou uvedeme adresář připojený službě jen pro čtení. Volbu můžeme samozřejmě definovat vícenásobně.

Podobně můžeme připojit určité obvykle nedostupné adresáře jen pro čtení pomocí  BindReadOnlyPaths=. Hodí se i možnost explicitního znepřístupnění některých cest, třeba k utilitám, na které by vůbec služba pro jistotu neměla dosáhnout. Takové cesty vyjmenujeme pomocí  InaccessiblePaths=.

S pomocí MemoryDenyWriteExecute= můžeme zakázat mapování paměti pro zápis a spouštění zároveň, ProtectKernelModules= zakáže správu jaderných modulů a RestrictSUIDSGID= zakáže změnu vlastníka a skupiny u souborů a adresářů.

root_podpora

Ne všechny volby je samozřejmě možné využít u všech služeb, nemá například smysl u webového serveru zakazovat přístup do sítě. U mnoha služeb ale takto můžeme omezit jejich schopnosti a uzavřít je v jejich vlastním omezeném světě. Doporučuje se omezit co nejvíce vlastností, pokud to samozřejmě negativně neovlivní běžnou funkci služby.

Výsledkem vašeho snažení pak může být hláška:

→ Overall exposure level for nginx.service: 2.2 OK :-)

Odkazy

Byl pro vás článek přínosný?

Autor článku

Petr Krčmář pracuje jako šéfredaktor serveru Root.cz. Studoval počítače a média, takže je rozpolcen mezi dva obory. Snaží se dělat obojí, jak nejlépe umí.