Úsvit AI éry

Následující odstavce stojí na mém tichém předpokladu, že nás čeká radikální změna v tom, jak se v celém počítačovém světě přistupuje ke grafické informaci, k obrazu a tomu, jak je prezentován uživateli. Budou se měnit platné limity, budou padat dekády stará dogmata, bude se postupně otupovat i naše osobní vnímání toho, co je v pořádku a co není.

Náznaky tu máme už pár let. Ony to dnes už vlastně ani nejsou náznaky, je to otevřeně sdělovaná realita. Ta, která se pomalu vkrádala do světa fotografie skrze přechod digitální technologie a Bayerovu masku, která neposkytuje věrný odraz zachytávané reality, ale jen extrémně kvalitní aproximaci. Ta, která nám dnes přebujela do obrovských rozměrů, kdy už příliš nezáleží na fyzickém rozlišení obrazu / snímače, vše se totiž dá dohnat strojově, pomocí stále sofistikovanějších algoritmů.

Tu přišla do světa smartphonů výpočetní fotografie. Nekvalitní pidisnímače schopné díky super-rychlé BSI-CMOS technologii desítek expozic za sekundu, prostě nepotřebují po fyzikální stránce velké fotobuňky a z nich plynoucí velký dynamický rozsah 15 EV jako středoformátové přístroje Phase One či nejnovější bezzrcadlovky Sony Alpha. Stačí jim nastřílet X dílčích expozic, vše ostatní poslepuje software obsluhující kamerku, který je součástí iOS i Androidu. Zatím třeba ještě bez AI, za rok či dva už s AI vždy. Výsledkem je dobře vypadající fotografie za téměř tmy, za ostrého světla s focenými lidmi ve stínu stromu, za nepříznivých povětrnostních podmínek. A tahle AI se každým dalším dnem učí v Applu i Googlu být lepší a lepší a lepší.

Neflákají se ani firmy ve foto branži, kde nejvíce je vývoj vidět asi na Olympusu – pardon, OM Digital Solutions (OMDS). Ti před pár lety přišli s multi-exposure režimem, kdy z řady dílčích expozic scény, focených vždy s drobným posunutím snímače (pomocí cívek řešících in-body stabilizaci), bylo s 20Mpix kamerkami dosahováno 50Mpix JPEGů, resp. 80Mpix RAWů. Dnes s nejnovějšími těly to OMDS umí už i při držení z ruky a umí výpočtem zase o kus lépe kompenzovat pohyby objektů ve scéně. Co dostane třeba model OM-1 v průběhu příštích let s aktualizacemi firmwarů, můžeme jen odhadovat. Co dostane příští generace bezzrcadlovky OMDS, bude ještě větší.

Zdá se ale, že přibývá lidí, kterým nevadí, že zachytávaný obraz není co nejvěrnějším odrazem skutečnosti a příliš nevidí, jak hi-endový smartphone i navzdory cenovce 30 až 40 tisíc Kč maže jemné detaily ještě před uložením a snímky následně přeostřuje. Zdá se, že pro stále větší množství z nás je taková nižší kvalita dostatečná.

Do toho před nějakou dobou přišla Nvidia jako první se systémem DLSS. Softwarová technologie, která prostě hru renderuje v nižším rozlišení, aby současně aplikovala (AI) upscaling na rozlišení vyšší/nativní, dává potenciál pro výrazně vyšší hodnoty fps při visuálně stejné kvalitě jako rendering v rozlišení vyšším. Tedy vlastně ně stejné, ale kdo by si v bitevní 3D vřavě s myriádami efektů při 60 až 240 fps všiml, že obraz není tak dokonalý jako rozlišení nativní. Rozhodně ne ten, kdo si pochvaluje výstup ze Samsungu Galaxy S22 Ultra ve srovnání s full-frame bezzradlovkou.

AMD poměrně rychle kontrovala vlastní technologií FSR (FidelityFX Super Resolution), která dělá přibližně totéž, ale je otevřená jak použití na libovolných GPU, tak použití libovolnými hrami / studii / enginy / platformami. Nyní AMD představila FidelityFX Super Resolution 2.0, zase o kus lepší balík algoritmů pro upscaling a internety se plní oslavnými články o tom, kterak kvalitativně nejhorší rychlý profil FSR 2.0 je kvalitativně lepší než kvalitativně nejlepší FSR 1.0 profil (uf), to vše ještě stále bez AI. A do toho ještě AMD v ovladačích pro Radeony (Windowsových) připravila RSR, neboli Radeon Super Resolution, což je všeobecně fungující implementace upscalingu na bázi FSR 1.0, která sice z principu věci nemůže být tak kvalitní, jako hrou explicitně podporovaný FSR 2.0, ale funguje vždy a všude. Podrobněji k tomu Jan Olšan na Cnews.

Jistě netřeba na dokreslení současného obrazu připomínat ty hromady videí na Youtube, kde si můžeme pouštět stařičká videa z 19. století, točená s ±10fps třesoucí se kamerkou, nyní pomocí AI kolorovaná, upscalovaná do 4k a doplněná o mezisnímky na 60 fps. Historici bijí na poplach, že tohle je zkreslování reality, ale trend je jasný: kdo kdy nechal automaticky kolorovat pomocí některého volně dostupného AI systému na webu starou rodinnou fotografii, co pořizoval dědeček v 50. letech flexaretou na Fomapan, ten ví své: když se to trefí, je to prima. I ty nejlepší systémy automatické kolorizace nejsou A ono se to s každým dalším rokem trefí častěji a lépe.

Doba postfaktická?

Což o to, u her to až tolik nevadí. Že je hra renderována v 1920×1080 a následně ji FSR 4.0 AI upscaluje do 4k v kvalitě neodlišitelné od nativního 4k renderingu, je potenciálně zcela nezávadné. Že si doma pomocí AI obarvíme staré rodinné fotky, rozčílí možná 90letou prababičku, protože ta její košile na fotce nebyla modrá, ale zelená. Historici budou stále bít na poplach. Doufejme. Že u běžných výcvaků stejně tak nelpíme na věrnosti realitě také zásadně nevadí, vždyť i válečné konflikty už před více než 10 lety tu a tam byly foceny iPhonem a aplikací Hipstamatic. Ale co naše vnímání reality?

Žijeme prý už nějaký ten rok v době postfaktické. Na objektivní skutečnosti tolik nezáleží. Hlavní je náš osobní pocit, emoce. Zvolíme politika s mnoha škraloupy klidně jen proto, že na nás pár (tý)dnů před volbami udělal někde na náměstí dobrý dojem. Rozhodneme se koupit nový telefon prostě proto, že ho chceme, myslíme si, že ho nutně potřebujeme a je přece tak levný.

Jenže on je levný jen relativně, skutečnou potřebu nového přístroje nemáme, jen potřebujeme uspokojit naše psychické rozpoložení, které ho chce. Nákup nestojí na objektivních faktech, stojí na dojmu, aktuálním rozpoložení a jiných nerelevantních aspektech. Ostatně takto to bylo vždy, proto na dětském mléčném produktu najdeme kresleného myšáka či kravičku a v reklamě na nový automobil se po desítky let objevovaly chudé slečny, kterým po plastické operaci v oblasti hrudníku nezbylo na pořádné oblečení. Jen dnes je to ještě silnější a ještě rozlezlejší mor.

Problém procesorových jader

Když přišel Intel s HyperThreadingem, bylo to zjevení. První generace byla na dnešní poměry hodně spartánská, nárůst výkonu byl spíše v malých desítkách procent, nikoli tak masivní, jak může být dnes, ale stálo to za to. Když přišel první dvoujádrový procesor, bylo jasné, že honění megahertzů odzvonilo. Jenže tam, kde druhé jádro znamená +100%, třetí jádro už jen +50% (pamatujete Phenomy X3?) a čtvrté jádro už jen +33%.

Flashové SSD disky se sekvencí SLC – MLC – TLC – QLC – výhledově PLC by mohly vyprávět. Je stále těžší, aby procesory, obecné či grafické, držely krok s dobou. 4k video je prostě 4× víc než 2k, 8k video je 4× víc než 4k a 16× víc než 2k a navíc roste potřeba vyšších hodnot fps. Proto DLSS a FSR. Musíme nějak obejít naši technologickou neschopnost vyrábět každých pár let několikanásobně výkonnější počítače.

Kam směřuje vývoj

Obávám se, že vše už je jasné, budoucnost je nalinkována. Tam, kde nebude stačit surový výkon, se věc přiohne pomocí algoritmů. Jednoho dne možná ani nebudeme vědět, že hra neběží nativně v 7680×4320, že běží na rozlišení nižším, ale špičkově resamplovaném do nativního. Vše před námi schová hotové enginové či API/ovladačové řešení a nebudeme se o to muset starat. Zhruba stejně jako když se dnes zeptáte běžného teenagera, kde v adresářové struktuře jeho telefonu se ukládají fotky. Často ani neví, že něco jako adresářová struktura existuje. Ale nevadí to, vždyť mu fotografie vždy naservíruje jeho magické oko v podobě aplikace galerie na daném přístroji. Nemusí rozumět grafickým formátům, adresářům a právům přístupu k nim, nemusí rozumět ničemu. Jeho smartphone vždy vše zpřístupní, přeškáluje, vyfotí, natočí. Upraví do co nejhezčí podoby.

Vždy budou na světě technicky zdatní experti. Ti, kteří zajdou do vytěženého solného dolu v Arizoně, přinesou z něj černobílé negativy barevné separace originálních negativů slavného filmu z roku 1977, aby jej prohnali nejkvalitnějším filmovým skenerem na planetě Zemi v dané době a připravili nám ne 4k, ale 8k či 16k sken, ze kterého následně vznikne nový digitální master, řadovým pasivním uživatelům servírovaný na platformách jako Netflix či Disney+.

Jednoho dne ale místo techniků, koloristů, zvukových expertů či obrazových vědců na originální skeny negativů pustí natrénovanou umělou inteligenci a ona stvoří nový digitální master daleko vyšší kvality než živí lidé. Ale bude mít onu věrnost? A pokud ne, bude ještě naživu vůbec někdo, kdo to rozpozná? A i kdyby ano, bude vůbec na světě někdo, komu to bude vadit? Dobrých 10 let více o Xeroxu a jeho problému s čísly, bylo to jedno z těch prvních varování, tehdy ještě bez nějaké neuchopitelné natrénované AI.

V telefonech nečekejme nic jiného než stovky megapixelů slepujících jednotlivé fotky z desítek dílčích rozličných expozic. Prý se nám chystá na trh smartphone Motorola s téměř 200 Mpix snímačem. To není konečná, Samsung už pár let pracuje i na 600Mpix snímači.

I ve zvuku už nám do věcí „kecá“ umělá inteligence, na konference zaměřený formát Google Lyra na AI přímo staví. Ani v počítačových hrách nečekejme nic jiného než stále více automatických procesů v renderingu her, jejichž cílem bude jediné: co nejhezčí pozlátko při dané hodnotě fps.

Nedoufejme, že toto nepronikne do žurnalistiky, tak se jednoho dne prostě stane. Doufejme alespoň, že toto pronikne do úprav záběrů pro zpravodajství co nejpozději, pokud vůbec něco jako objektivní, nezávislé a z více zdrojů ověřované zpravodajství vůbec přežije do 22. století. Neboť jak pravil Isaac Asimov: „Nejsmutnějším aspektem současného života je, že věda shromažďuje znalosti rychleji než společnost sbírá moudrost.“ (záměrně použit překlad z Google Translatoru, ke kterému jistě přispěla i AI).