Hlavní navigace

Vlákno názorů k článku Cluster na Linuxu: vysoká dostupnost s RHEL a deriváty od MP - Dodal bych 2 veci: 1] odkazy na redhat stranky,...

  • Článek je starý, nové názory již nelze přidávat.
  • 24. 7. 2017 10:06

    MP (neregistrovaný)

    Dodal bych 2 veci:

    1] odkazy na redhat stranky, ktere jsou pristupne jen po prihlaseni, jsou osemetne. Nejsem si jist, zda nektere nevyzaduji zaplacenou podporu.

    2] hodilo by se upozorneni, ze fencing ze zdraveho node na neodpovidajici ma vice problematickych stavu. Napr. pokud totiz ten node neodpovida ani na standardni komunikaci, tak ho proste neodstrelite. Na to by se muselo pouzit but:
    a] fencing primo na urovni neodpovidajiciho node - napr. Proxmox takto resi vypadnuty stroj z clusteru, ze se sam zrestartuje (obcas to pri aktualizaci zaboli :-) )
    b] externi fencing - tam je to zase komplikovanejsi z toho duvodu, ze ilo/idrac atd. jsou mnohdy v oddelene siti, protoze jejich zabezpeceni je deravejsi nez standardni linux.

  • 24. 7. 2017 11:10

    obenes

    Díky za reakci.

    1. Ano, odkazy na dokumentaci Red Hat v rámci access.redhat­.com/solutions a access.redhat­.com/articles jsou většinou dostupné po přihlášení, a to nejčastěji znamená mít placenou podporu (kromě Developer programu). Proto se snažím koncept, na který odkazuju těmito články, dostatečně vysvětlit. Samozřejmě tyto odkazy obsahují mnohem víc informací než moje shrnutí -- proto na ně taky odkazuju. Ty odkazy nejsou pro pochopení tohoto článku nutné, je to jen rozšíření.

    2. Ve virtuálním prostředí si nemyslím, že tento problém existuje -- pokud zdravý node pošle hypervizoru pokyn k fencingu - rebootu neodpovídajícího nodu a pokud je vše správně nakonfigurováno, pak hypervisor fencing provede nezávisle na stavu neodpovídajícího nodu. Ten může klidně být i vypnutý.

    V případě fyzických mašin se používá externí fencing, jak píšete v bodě 2b.

    2a. Tzv. self-reboot je funkcionalita zahrnutá ve fencingu pomocí SBD -- storage-based death. Tam se k rebootu využívá tzv. watchdog device

    Using SBD with Pacemaker
    https://access.redhat.com/articles/2212861

    https://www.kernel.org/doc/Documentation/watchdog/watchdog-api.txt

    2b. Ano, proto je externí fencing pomocí out-of-band management karet zpravidla na jiné síti -- aby se signál k rebootu neodpovídajícího node ke kartě dostal. Pokud jde o bezpečnost, jiní jsou rozhodně povolanější než já, aby se k tomu vyjádřili.

  • 24. 7. 2017 14:36

    hefo (neregistrovaný)

    Pri HP-UXe (ServiceGuard) to bolo riesene sposobom a) - ak node zistil, ze odpoveda menej ako polovica clustra, vykonal sa TOC (nieco ako tvrdy hardverovy reset z vytvorenim memory dumpu). A z tohto dovodu aj dvojnodovy cluster pouzival este treti element - bud samostatny quorum server alebo quorum disk, dostupny cez fibre channel z oboch nodov, ktory urcoval, ktory je aktivny node a s jeho zapocitanim sa dala urcit nadpolovicna vacsina clustra.