Proč se starat o technickou kvalitu, když máme AI

5. 2. 2021

Doba čtení: 7 minut

Líbí se vám článek?
Podpořte redakci

Fenoménem 20. století byl technický pokrok prakticky ve všech oblastech, vzešlý často z fyzikálních objevů. 21. století bude patřit spíše softwaru v podobě neuronových sítí a samoučících se systémů.

Někdy zhruba před 20 lety jsem žasl nad tím, jak skvělé výsledky dává parametrický ekvalizér a redukce šumu ve zvukovém editoru Cool Edit Pro. Mohl jsem vzít své letité ohrané audiokazety, před tape deck TEAC je skrze Sound Blaster Live! 5.1 zkopírovat do PC do podoby 16bit 44,1kHz stereo WAVů a následně zpracovat v Cool Edit Pro tak, že přišly o šum a dostaly zpět nejen své hloubky, ale hlavně výšky. Vše tak, že to znělo přirozeně, nikde nebyly slyšet žádné výpočetní artefakty (což se o redukci šumu v Audacity nedá říci dodnes). Celkově jsem s těmito svými dvacetiletými ripy nyní 30 let starých audiokazet, uložených tehdy do Ogg Vorbis, dodnes plně spokojen, nicméně to tehdy byla spousta času stráveného laděním parametrů při zpracování.

Ve společnosti Syntrillium tehdy stvořili výborný program s vynikajícími filtry a nástroji. Tak dobrý, že je později koupilo Adobe a z Cool Edit Pro se stal Adobe Audition.

Jenže tohle už není či nebude potřeba.

Někdy před (necelými) 20 lety se objevil projekt ffdshow. Ten v sobě integroval ffmpeg v uživatelsky přívětivém GUI pro Windows a v podobě balíku DirectShow kodeků, což byla cesta, kterou se podpora formátů do Windows tehdy typicky přidávala (na VLC bylo myslím ještě příliš brzy, nebylo tolik známé).

Fascinovaně jsem tehdy zkoušel zejména různé filtry, které uměly kromě samotného dekódování DivX/XviD videí navíc toto video přeškálovat na nativní rozlišení monitoru, doostřit, doladit další parametry obrazu, přidat filmový šum atd. Typicky to znamenal upscaling XviDu o rozlišení od 384×288 po 576×432 na nativní rozlišení monitoru 800×600).

A kdo si pohrál s nastaveními vhodnými pro své rozlišení, úhlopříčku a typickou vstupní kvalitu videí, ten se mohl pomocí ffdshow dostat k pohledově kvalitnějšímu výstupu, než kdyby video přehrával přes standardní dekodér typu Xvid kodeku. Mělo to zkrátka něco pro sebe

Jenže ani tohle už není či nebude potřeba.

Bývaly doby, zhruba od konce 90. let, kdy jsme toužebně vyhlíželi každou novou generaci 3D grafických akcelerátorů. Ve velkém to začalo s 3Dfx Voodoo Graphics někdy v roce 1998. Tu nakonec měl každý ve třídě a o nějakou dobu později všem, kdo tu zpropadenou hru jménem Quake II viděli na Voodoo 2 s 800×600 či rovnou v 1024×768 na 2× Voodoo 2 v SLI, hlodal v hlavně první velký červ na téma průběžných upgradů PC herní grafické karty.

Trhu tehdy prospěl Microsoft se standardizací a prosazením DirectX (zejména od verze 5.0 vývojáři toto rozhraní přijali za své), výrobců přibývalo a najednou to nebylo jen o API 3Dfx Glide, ale stačilo obecně Direct3D (případně OpenGL, které též podporovali všichni). Čas od času nám výrobci přinesli nějakou novou fajnšmekrovinu, herní vývojáři ji nasadili, vše proto, abychom byli donuceni upgradovat. Tu to byla jednotka T&L, tu první typy shaderů, později unifikované shadery, následně třeba GPU fyzika a tesselace a v poslední době třeba raytracing.

A ani tohle možná nebude tolik potřeba.

Bývaly doby, kdy mezigenerační skok v digitálních fotoaparátech byl markantní. Po prvních nesmělých pokusech s 1,3 či 2,0Mpix pidisnímači, které byly spíše nouzovou ochutnávkou začínající nové technologie, přišly první pořádné 3Mpix či 5Mpix foťáky a také první APS-C zrcadlovky s 6Mpix i většími čipy. Po nich následovaly 10 – 14 – 16 – 20 – 24Mpix generace a vždy to byl viditelný krok vpřed.

Kdo jednoho dne odložil svůj 8Mpix APS-C Canon a přešel na 21Mpix full-frame, ten najednou disponoval přístrojem schopným pořizovat fotografie v technické kvalitě asi tak o tisíc levelů vyšší. Takové, jaké 8Mpix APS-C fyzicky nebyl schopen. Pomiňme nekončící debatu o fenoménu megapixel war, který říká, že rozlišení už dávno vzrostlo za smysluplnou mez. Říkalo se to v době 20Mpix foťáků a říká se to i dnes, kdy se dají koupit i 100Mpix bezzrcadlovky za cenu nižší než nejlevnější Dacia.

Jenže i tohle už vlastně není potřeba.

Všechny výše uvedené příklady mají jeden společný jmenovatel: umělá inteligence v nich buď již vytlačila, nebo právě začíná vytlačovat, nebo v nepříliš vzdálené budoucnosti vytlačí nutnost technického pokroku, a to použitím adaptivních výpočetních systémů neuronových sítí, akcelerovaných dnes i ARM čipy v telefonech.

Co už tu je a co nás čeká

V prvních letech po příchodu digitálních zrcadlovek (jakožto prvních foťáků s velkými snímači) se řešilo, že bez APS-C snímače nelze získat pořádný bokeh. Majitelé později se objevivších full-frame těl o tomto mluvili s o to větší vervou. Ne nadarmo jiní poukazovali na to, že je v tu chvíli potřeba vzít v potaz též světelnost objektivu. Krásně to shrnovala tabulka od ZEISSe, která de facto sdělovala víceméně to, že s f/1.2 objektivem pro Olympus M43 lze dosahovat obdobné hloubky ostrosti jako s f/1.8 objektivem na full-frame Canonu (samozřejmě při odpovídající ohniskové vzdálenosti atd.).

Ne nadarmo se na APS-C typicky cloní maximálně na f/16 až f/22, zatímco fotografové fotící na velký formát si i kdysi dávno založili skupinu f/64.

Dnes už toto neřešíme. Výpočetní fotografie je již pevnou součástí smartphonů s miniaturními snímači. Takže nevadí, že odstup signál-šum snímače je mizerný, to se spraví výpočty a krásně to ukazují režimy jako Night Sight v Google Pixelech.

Nevadí, že na malém snímači fyzikálně nejde dosahovat slušně malá hloubka ostrosti, resp. fotit s pohledným bokehem. To se dožene v postprocessu pomocí dat z depth snímače a výsledek, když se podaří, většina lidí nerozezná od profi zrcadlovky.

Dokonce by se dalo tvrdit, že se všemi těmi novými přístroji vzešlými ze spolupráce Huawei a Leica, případně se všemi těmi 108Mpix snímači Samsungu je obcházen i další fyzikální limit, a to ten difrakční.

Pomalu udolávány jsou/budou i další výsostné speciality drahé profi fotky, třeba korekce tilt&shift. Snad ani netřeba zmiňovat, že mnohé optické vady objektivů (chromatická aberace, soudkovitost atd.) se softwarově korigují už dávno, bez nějaké AI. Ale musí na to člověk mít vytvořené profily objektivu. To AI jednoho dne bude toto umět korigovat nezávisle na přístroji, se kterým byla fotka pořízena. Vždyť šéf vývoje v Samsungu už hovoří o tom, že telefony budou díky AI přizpůsobovat fotky vkusu konkrétního uživatele.

Jiným dobrým příkladem toho, jak obejít fyzikální limity a pomocí neuronového učení člověka oblbnout, je technologie Nvidia DLSS, neboli Deep Learning Super-Sampling. Jejím základním principům se věnoval Jan Olšan na Cnews už před více než dvěma lety, mezitím DLSS vyzrálo do verze 2.0, která je zase o kus lepší.

Stejně jako jiné techniky, i ona si hraje s tím, že kombinuje výsledek z AI upscalingu s tím, že lidské oko se nechá snadnou oblbnout. Dojem vyššího rozlišení, tedy detailnějšího obrazu získaného z nižšího rozlišení (což je dle Nyquista/Shannona nemožné), umí nasimulovat už prostý upscaling nějakým rozumným algoritmem (Lancosz apod.) kombinovaným s následným doostřením. Když se k tomu přidají metody dokreslení detailů z natrénovaných neuronových sítí, tak sice získáváme obraz, který NENÍ přesným obrazem původní reality, ale … koho to zajímá, když to vypadá skvěle a viditelně lépe než prostý upscaling.

Budoucnost klepe na dveře

Nvidia tomu tedy říká DLSS. Na fotky máme třeba Topaz AI. U falešných videí tomu říkejme třeba deep fake. Všeho toho je plný YouTube a Pandořina skřínka byla otevřena, AI pro obraz a video či zvuk tady s námi bude.

A jednoho dne někdo natrénuje neuronovou síť tak skvěle, že nebude vadit, že v 35mm negativech Casablancy z roku 1942 není dost detailů pro 16k – ona to dopočítá AI. Nebude vadit, že George Lucas natočil Episodu 1 v roce 1999 pomocí experimentální 2k digi kamery Sony a tudíž NENÍ natočena dost detailně, aby z toho bylo možné získat 4k – 8k – 16k. Vždyť ve 4k už na oficiální release na UHD Blu-ray došlo, a to ještě nejsme v AI po lokty, zatím spíš po kotníky. Jednoho dne na to dojde.

Ano, fanoušci budou plnit YouTube důkazy, že to AI v tom či onom záběru nezvládla a nějaký prvek scény neodpovídá původnímu filmu, ale jak jsem již uvedl: Pandořina skřínka byla otevřena a nelze ji znovu zavřít. Většinu to zajímat nebude, pro ně bude podstatná kvalita toho hollywoodského spektáklu, povýšená z roku 1999 na řekněme rok 2039.

Stejně tak jednoho dne třeba Supraphon sáhne znovu po digitalizovaných masterech Emy Destinové, jejíž árie byly před lety digitálně restaurovány. Stejně tak se navrátí lesk šelakovému zvuku pěveckého mistrovství Enrica Carusa a tak bychom mohli pokračovat.

Smutné bude, až se všechny ty AI začnou nudit a rozhodnou se ovládnout planetu. Nicméně pokud se tak stane, bude se tak jistě dít v ultra-vysokém rozlišení za doprovodu krystalicky čistých zvukových efektů.

Vstoupit do diskuse (40 názorů)

David Ježek

Příznivec open-source rád píšící i o ne-IT tématech. Odpůrce softwarových patentů a omezování občanských svobod ve prospěch korporací.

Témata:

Nejake odkazy? Kreativita je celkem dobre 'intuitivne' definovana, viz https://cs.wikipedia.org/wiki/Tvo%C5%99ivost . Myslim, ze i takova nedokonala definice je postacujici pro rozhodnuti zda je AI kreativni. Zde bych jen rekl, ze treba 'vyhrat nad nekym v Go' bych za kreativni nepovazoval. Stejne tak nepovazuju za kreativitu rozpoznani SOP^H^H^HSTOP znacky https://simpsons.fandom.com/wiki/Sop_Sign ;-) i pres to, ze to AI nikdo explicitne neucil. Naopak namalovani SOP znacky abychom se…

mhi

Sdílet

Co už tu je a co nás čeká

Budoucnost klepe na dveře

Autor článku

David Ježek

Témata: