Hlavní navigace

Co skrývají „otevřené“ adresáře na českém a slovenském webu?

1. 11. 2018
Doba čtení: 7 minut

Sdílet

Nedávno jsme se s kolegy z týmu ALEF CSIRT rozhodli zjistit, jaká data jsou dostupná v „otevřených“ adresářích na webu. Ukázalo se, že není nijak složité najít ofocené občanské průkazy či databáze s citlivými osobními údaji.

Snad každý týden se objeví nějaká nová analýza zabývající se počty zranitelných systémů, citlivými daty dostupnými na různých typech úložišť, nebo jinou oblastí informační bezpečnosti. Bohužel takových, které by byly regionálně zaměřené na střední Evropu, nebo dokonce specificky na Českou republiku, je minimum. Zejména proto jsme se v rámci ALEF NULA rozhodli podniknout sérii bezpečnostních výzkumů a analýz, věnovaných českému a slovenskému online prostředí. První z nich, realizovanou v průběhu třetího kvartálu letošního roku, jsme se rozhodli věnovat volně přístupným citlivým datům, přístupným přes automaticky generované stránky s výpisy obsahu adresářů.

„Index of“ stránky, tedy dynamicky generované výpisy obsahu adresářů na webových serverech, někdy potkal téměř každý, kdo chvilku brouzdal webem. Adresáře přístupné přes tyto stránky bývají často označovány jako „open directories“, tedy otevřené adresáře – důvodem pro toto označení je skutečnost, že je zpravidla může procházet kdokoli, kdo má k danému serveru HTTP(S) přístup.

Generování výpisů obsahu adresářů je často záměrné, neb v důsledku něj odpadá potřeba manuálně vytvářet a upravovat stránky umožňující stahovat odpovídající obsah. Mnohdy jde ale o přehlédnutí na straně administrátora a tyto výpisy se generují i pro adresáře, u nichž to není žádoucí, nebo nejsou na skutečnost zpřístupnění obsahu adresářů online upozorněni jejich uživatelé. Často se tak stává, že jsou touto cestou dostupná zajímavá data – mnohdy i velmi citlivá. Vzhledem k uvedenému asi nepřekvapí, že se někteří věnují aktivnímu vyhledávání open directories – nejlépe to asi dokládá obliba subredditu věnovanému této problematice, který má v době psaní předloženého textu téměř 76 000 odběratelů.

Kde je AI, když ji potřebujete?

V rámci naší analýzy jsme se zaměřili na vyhledávání otevřených adresářů dostupných na českém a slovenském internetu, respektive na doménách s ccTLD .cz a .sk a na IP adresách, u nichž bylo možné podle geolokace předpokládat, že se za nimi nacházejí servery v České republice nebo na Slovensku. Cílem bylo zjistit, jak citlivá data jsou tímto způsobem zpřístupněna online, a to bez ohledu na to, zda je provozovatelem serveru nebo vlastníkem dat jednotlivec nebo velká korporace.

Při vyhledávání zajímavých dat jsme chtěli být maximálně neinvazivní vůči koncovým systémům, záměrně jsme se tak vyhnuli aktivnímu skenování webových serverů a při získávání informací o existenci otevřených adresářů jsme spoléhali jen na indexy webových vyhledávačů. S pomocí jednoduchých Google (a jiných) dorků kombinovaných s vyhledáváním vhodně zvolených klíčových slov jsme identifikovali několik tisíc domén s adresáři s potenciálně citlivým obsahem.

Následně bylo nutné všechny tyto adresáře projít a ověřit, zda se v nich citlivá data skutečně nachází. Vzhledem k tomu, že na některých doménách byly přístupné komplexní adresářové struktury s mnoha desítkami podadresářů a stovkami souborů, nešlo o jednoduchý úkol.

Napadlo nás, že pro podobnou analytickou činnost, která by pro člověka byla bezpochyby extrémně náročná na čas, by mohlo být vhodné použít umělou inteligenci. Jelikož ale žádný člen realizačního týmu neměl ambici (a ani zlomek nezbytné expertízy, což je podstatnější) vyvíjet AI systém schopný identifikovat citlivé obrázky, texty a mnoho dalších typů souborů, analytická práce přece jen skončila na člověku.

Osobní údaje i vizitky hackerů

Po přibližně dvou měsících, v jejichž průběhu jsme obsah identifikovaných zájmových složek analyzovali, jsme dospěli k překvapivému zjištění. Když jsme se do zkoumání otevřených adresářů pouštěli, čekali jsme, že nějaké citlivé soubory najdeme, realita ale citelně předčila naše očekávání, pokud šlo o jejich počet.

Z několika tisíc analyzovaných webových serverů jsme na 185 objevili citlivá data. Někdy šlo o jednotky, jindy však i desítky souborů, které by zřejmě neměly být volně přístupné online. Pro úplnost je vhodné uvést, že jen 14 % z těchto serverů bylo slovenských. Domníváme se, že důvodem pro tuto nevyváženost byla spíše než lepší situace na Slovensku omezená lingvistická vybavenost čistě českého týmu. Ta se projevila při volbě klíčových slov užitých pro vyhledávání potenciálně citlivých složek a nahrávala spíše výsledkům v češtině.

S ohledem na nedávný vysoce medializovaný vstup nejmenovaného legislativního nástroje v účinnost může být s podivem, že na 41 serverech jsme odhalili volně přístupné osobní údaje. V případě některých serverů šlo jen o seznamy jmen doplněné o e-maily a telefonní čísla, jindy byla však jména osob doplněna i o jejich data a místa narození, rodná čísla, a čísla jim vydaných občanských průkazů. Oskenované občanské a řidičské průkazy, stejně jako cestovní pasy, byly také na několika serverech dostupné.

Podobně vysoce citlivé informace, které ale neměly povahu osobních dat, jsme nalezli na 28 serverech. Šlo, mimo jiné, o zálohy z mailových klientů obsahující mnohdy i několik let firemní i soukromé komunikace, různé smlouvy a faktury, výsledky inventur zboží nebo výpisy z účtů právnických i soukromých osob.

Co asi překvapí jen málokoho je skutečnost, že na několika desítkách serverů jsme objevili také složky s potenciálně ne zcela legálním softwarem (na jeho původ lze usuzovat z pojmenování souborů a časté přítomnosti cracků a seznamů sériových čísel nebo aktivačních klíčů), audiovizuálním obsahem (většinou šlo dle názvů adresářů a souborů o filmy a seriály z posledních let), hudbou a knihami v elektronické podobě. Za citlivá lze tato data považovat zejména s ohledem na hrozící postih za jejich sdílení

Celkem 29 serverů obsahovalo též adresáře s fotografiemi. V případě značné části z nich se lze domnívat, že šlo o nezáměrně publikovaný materiál (např. osobní fotogalerie pokrývající několik let a mnoho různých aktivit), jehož dostupnost s sebou nicméně nese jen minimální riziko. V nejednom případě však byly volně dostupné i osobní fotografie vysloveně intimního charakteru. Explicitní pornografický materiál jsme pak nalezli na devíti ze zájmových serverů. Za poznámku stojí, že pouze jeden z nich při tom hostoval i web s pornografickou tématikou.

Za jeden z nejcitlivějších typů dat, který jsme v rámci analýzy objevili, lze bezpochyby považovat hesla. Celkem na šesti serverech se nám podařilo odhalit je v samostatných textových souborech, v kopiích e-mailů a v jednom případě i v logu z webového serveru.

U osmi serverů jsme pak nalezli indikátory úspěšných (tedy alespoň do jisté míry) kybernetických útoků. Ve chvíli, kdy se jim podaří získat kontrolu nad serverem, nebo alespoň odhalí zranitelnost umožňující nahrávat na něj data, nechávají za sebou zejména script kiddies „vizitky“ ve formě textových souborů nebo obrázků, hlásajících slávu odpovídající „hackerské“ skupiny nebo jednotlivce.

Mnoho z nich tradičně bývá pubertální nebo vulgární povahy, nicméně občas je možné mezi nimi najít i vizuálně zajímavý ASCII art. Zmínku si určitě zaslouží, že na jednom z analyzovaných serverů, který byl zjevně oblíbeným cílem útoků, jsme odhalili vizitky od více než 100 skupin a jednotlivců.

Na čtyřech z takto „hacknutých“ serverů jsme navíc objevili i nějakou podobu webového shellu – skriptu, který může útočníkům umožnit skrz webové rozhraní spouštět na serveru příkazy.

Procentuální zastoupení různých typů citlivých dat na zkoumaných serverech shrnuje následující graf. Pro zajímavost je vhodné uvést, že mezi provozovateli zkoumaných webových serverů byli jak jednotlivci, tak komerční, akademické i státní organizace, a to včetně těch, na něž se vztahují požadavky ZKB.

Reakce

Přestože jsme se do projektu pouštěli pouze s cílem zjistit, jak citlivá data jsou přes otevřené adresáře dostupná, po analýze výsledků jsme cítili snad pochopitelnou morální povinnost upozornit na situaci alespoň ty organizace a jednotlivce, které by dostupnost jejich dat (rodných čísel, citlivých firemních záznamů, apod.) mohla reálně poškodit. Kontaktovali jsme tak tyto subjekty buď přímo, nebo s pomocí CZ.NIC, který nám v této věci nabídl pomoc, za což mu patří mé velké díky.

UX DAy - tip 2

Většina oslovených zareagovala velmi rychle a citlivá data odstranila, nebo provedla odpovídající rekonfiguraci serverů tak, aby obsah nebyl z internetu volně dostupný. V září tohoto roku navíc ukončil činnost nejmenovaný webový hosting, na jehož serverech jsme pod mnoha různými doménami objevili velké množství citlivých dat jeho uživatelů, dostupných celému internetu v důsledku nevhodné konfigurace serverů. S ohledem k uvedenému lze doufat, že situace – alespoň pokud jde o citlivá data dostupná přes otevřené adresáře na českých a slovenských doménách – je nyní o něco lepší.

Přesto je však na místě doporučit v podstatě každému provozovateli webového serveru, aby jednou za čas ověřil, že jeho data nejsou tímto způsobem přístupná – zabere to jen několik desítek vteřin a pomůže to vyhnout se velkým problémům. Koncovým uživatelům lze pak doporučit, aby se při využití jakékoli služby, v rámci níž nahrává svá data na nějaký cizí server nebo sdílený disk, seznámili s podmínkami užívání dané služby a ověřili si u jejího provozovatele, jak jsou nahraná data dostupná.

Byl pro vás článek přínosný?

Autor článku

Jan Kopřiva je specialistou na kybernetickou bezpečnost s dlouhou praxí a širokými zkušenostmi. V současnosti působí jako bezpečnostní konzultant ve společnosti Nettles Consulting a také jako jeden z odborníků ve sdružení SANS Internet Storm Center.