Hlavní navigace

H.266 je tím, čím měl být H.265 v roce 2012 (ale nijak to nevadí)

Na světě je nový formát videa od MPEG. H.266/VVC má být dvakrát efektivnější než H.265/HEVC, který má být dvakrát efektivnější než H.264/AVC. Dnes si povíme, proč je to málo, ač to vlastně nevadí.
David Ježek 10. 7. 2020
Doba čtení: 10 minut

Sdílet

H.266 je tedy prý tak dobré, že pro srovnatelnou kvalitu videa si vystačí s polovičním datovým tokem oproti H.265. Já si hned na úvod dovolím tvrdit, že to je lež, resp. není to univerzálně a vždy platná pravda. Podobně to nebyla pravda pro H.265 oproti H.264 a podobně to nebyla pravda pro H.264 oproti MPEG-4 ASP, reprezentovanému řekněme kodekem Xvid. Vysvětlím za chvíli.

Malý rychlokurz z historie formátů

Formáty pro digitální video totiž vznikají za určitým konkrétním účelem. Můžete je sice použít i jinde, ale většinou ze sebe uděláte jen hlupáka. Je například hloupost kódovat video o rozlišení 1920×1080 do formátu MPEG-2. Ano, sice tahle kombinace je jako jedna z možných přímo ve specifikaci formátu Blu-ray, ale třeba scéna s přistáním helikoptéry s astronauty v úvodu filmu Capricorn One, což byl jeden z těch raných Blu-rayů authorovaných do MPEG-2, jasně ukazuje, že tohle byla, je a vždy bude fakt nešťastná kombinace.

Podobně je třeba dosti hloupé zkoušet kódovat 8k video do M-JPEG. Jde to, ale dře to. A stejně tak je naopak velmi, opravdu velmi hloupé použít kodek x265 pro kompresi rodinných VHS kazet v rozlišení 352×288 (a zvuk z podélné mono stopy ukládat do 320kbit/s MP3). Na takto nízké rozlišení ten formát vůbec není optimalizován a 99% jeho benefitů zde nebude fungovat (kolik se třeba do této matice pixelů vejde coding block tree?), navíc je to výlet s kanónem na vrabce.

Zkrátka a jednoduše se to mělo a má takhle:

  • ±320×240/352×288 ~ analog VHS ↠ MPEG-1 (Video CD)
  • ±480p ~ S-VHS, Hi-8, SD video ↠ MPEG-2 (DVD-Video)
  • … intermezzo v podobě MPEG-4 ASP / DivX 3 / Xvid, …
  • ±2k/1080p/FullHD video/Blu-ray 1920×1080 = H.264 / AVC
  • (zapomeňte na slepé větve jako MPEG-2 a VC-1)
  • ±4k UltraHD video / UHD BD / 3840×2160 = H.265 / HEVC
  • ±8k UltraHD video / 7680×4320 = H.266 (případně AV1)

Dvojnásobná efektivita je fajn, i když nestačí

Představte si 1080p H.264 video jako 100% výchozí bod. Vyžaduje 100% datového toku pro toto rozlišení a standardní „100% hodnotu“ fps (obecně tedy 24 fps, 25 fps, 30 fps). S příchodem filmů (atd.) ve 4k rozlišení stoupl počet obrazových bodů na 400 %, ale kvalita kompresního systému pouze na 200 %. Najednou tedy komprese poskytovala pouze polovinu z potřebné efektivity. Zbytek u fyzických médií musel dohnat datový nosič, tedy z 50GB Blu-ray disků se přešlo na 100GB BDXL disky.

8k rozlišení znamená další čtyřnásobný nárůst počtu bodů, tedy 400 % oproti 4k a celkově 1600 % oproti 2k/FullHD. Komprese nemůže zůstat stále H.265 (to by hypotetický film na 12cm kotoučku zabral ne 50 či 100 GB, ale 400 GB, což je hodnota patrně mimo možnosti i nejpokročilejší reinkarnace Blu-ray disků, tedy profi formátu Archival Disc). H.266 se svojí proklamovanou dvojnásobnou efektivitou snižuje tuto potřebu opět pouze na dvojnásobek, tedy cca 200 GB/film. A to nepočítáme s tím, že by filmy místo obvyklých 24/25/30 fps mohly mít dnes dvojnásobek, či dokonce čtyřnásobek.

Zkrátka i pokud H.266 dostojí své reklamě a bude 2× efektivnější (výše uvedené video to měří dle PSNR, což není vždy vhodné) než H.265 u 8k videa, bude to za prvé vlastně pořád málo. A za druhé to bude platit pro 4k o něco méně, pro FullHD ještě méně a o SD videu se ani nemá smysl bavit.

Má to vůbec ještě smysl?

Jednoho dne narazíme na strop toho, co ještě má smysl, a co už ne. Opět si dovolím analogii: jelikož manželka jistého šéfa v Sony měla ráda Beethovenovu 9. symfonii, má zvukové CD vzorkovací stereo zvuk, 16bitovou přesnost a vzorkovací frekvenci 44,1 kHz. Pánové Nyquist a Shannon jsou spokojeni, zvukové CD je schopno pojmout i 22kHz zvuk (s rezervou strop lidského sluchu, křížence s netopýry nepočítám), i když za cenu jen zhruba 2 vzorků sínusovky o této frekvenci (což je taková nepěkná zubatice).

Právě pro ty netopýry nejen dodnes přežívá třeba fenomén gramofonových desek či elektronkových zesilovačů (byť z jiných důvodů než technické kvality), ale zrodily se i pozdější digi formáty jako SACD a DVD-Audio. A přinesly 24bitovou věrnost a vzorkovací frekvence typu 96 či 192 kHz. Dnes není problém ve zvukové technice potkat i 32bit / 384kHz, což běžný člověk od 24bit / 192kHz fakt nemá šanci poznat, ale představuje to luxusní rezervu pro další digitální zpracování zvuku. Zkrátka vyplatí se pro pozdější zpracování vzorkovat i VÝRAZNĚ víc, než kolik si žádal pan Claude Shannon a kolegové.

A stejně tak to platí pro obraz statický i pohyblivý a jeho množství bodů v osách X a Y. A stejně tak to platí i pro časové rozlišení (o tom ale dnes více ne, zde se primárně smiřme s tím, že většina toho, co má smysl mít v 8k, vznikala a vzniká z historických důvodů v podobě 24 snímků za sekundu).

Zkrátka a dobře, pokud byl film natočen na 65mm negativ (následný 70mm filmový pás se zvukem v magnetických šestikanálových stopách), je na negativu dostatek informace pro 8k rozlišení. Lépe řečeno, je na něm pravděpodobně dostatek informace i pro rozlišení vyšší, zdali 10k, 12k, 16k, to už je otázka emulze, formátu (včetně třeba anamorfických snímacích objektivů) atd.

Každopádně zde 8k má význam a stejně tak existují dnes i 8k kamery jako takové (od Red Epic za milióny Kč až po nejnovější smartphony od Samsungu, Xiaomi a výhledově i dalších). A například filmy jako Ben Hur či Baraka byly remasterovány do 4k rozlišení, ale skeny 65mm negativů se dělaly rovnou v 8k, aby v budoucnu bylo možné sáhnout pro 8k authoring rovnou po těchto skenech a nemuselo se už jít znovu do archivu pro nenahraditelné originální negativy.

Malá odbočka: proces 4k remasterů z originálních negativů, který dobrých 15+ let ve filmových studiích běží často znamená následný nový osvit na filmové pásy černobílého negativu, kam jsou uloženy barevné separace, což se ukázalo už s Technicolorem před ~100 lety jako VELICE spolehlivá forma dlouhodobé archivace barevných filmů.

Čili v teoretické rovině pro zachování světového kulturního dědictví v podobě filmů natáčených ve špičkové technické kvalitě má 8k rozlišení své opodstatnění a stejně tak i nutnost vyvinout formát, kterým jednoho dne bude 8k servírováno masám (protože H.265 v tomto ohledu nedostačuje). Zdali má 8k a H.266 smysl pro věci typu tříminutového video záznamu toho, jak Pepíček sfoukává 7 svíček ze svého narozeninového dortu, si netroufám soudit. Pouze si v tomto kontextu dovolím nastínit myšlenku, kterou dobře ilustruje Potato Jet na Youtube, a sice že ne vždy znamená 7680×4320 totéž co 7680×4320. A to na srovnání nových 8k smartphonů s pouze 2k legendární filmařskou kamerou Arri Alexa.

To video samozřejmě také ukazuje, jakými mílovými kroky vpřed kráčí vývoj smartphonové foto techniky a softwarových algoritmů. Všechna čest, vypadá to opravdu dobře na to, jak malými čočkami na jak malý snímač s jak malými pixely obraz proudí a jak malým procesorkem v jak malém zařízení je zpracován a uložen. Ale kdo kdy stál 10 centimetrů od dvoumetrové 4k UHD TV s běžícím DVB-T2, ten ví, že to vše je prostě jen šalba mizerná, která se při bližším pohledu až tolik oproti rozlišením daleko nižším neliší.

Kdy bude mít H.266 smysl nasadit

Stejně jako formát AV1, který je tu s námi už dobře dva a půl roku a stále je totálně nepoužitelný, i u H.266 musíme vyčkat na implementace. A to jak hw dekodérů ve spotřebitelských produktech, tak zejména hw podpory kódování do tohoto formátu. Anebo dobrého open-source kodeku, který si prozatím nazvěmež x266.

Implementace formátu H.264 známá jako x264 se rodila do své nynější podoby po dlouhá léta. Během cesty s ní přišly tak skvělé věci jako adaptivní kvantizace, která se později uplatnila i v kodecích pro jiné formáty. x264 to trvalo řadu let, x265 bylo dotaženo do kvalitního stádia výrazně rychleji právě díky tomu, že x265 je víceméně jen evolucí x264 pro vyšší rozlišení s nějakými finesami navíc (více úhlů motion vektorů, větší škála typů makrobloků (zde zvaných coding block trees), větší flexibilita I/P/B snímků atd.).

Kompletní specifikaci H.266 jsem nečetl (to by bylo na samostatný hutný článek, ne-li více článků), ale z toho, co bylo prezentováno už před týdny, plyne, že i zde jde o evoluci, byť doprovázenou slušnou várkou dalších optimalizací (nový typ kvantizace, oddělení stromů pro chroma a luma, vícenásobné sady transformací, adaptivní loop filtr, afinní transformace, kombinovaná intra/inter predikce a mnoho dalšího).

Z toho vyvozuji, že H.266 bude výtečné nasadit i na 4k video, o míře výhodnosti použití na 1080p rozhodne až praktická implementace x266 (a její rychlost), o míře výhodnosti pro 720p a menší už bych si dovolil dosti pochybovat. Uvidíme, podpora pro kódování nefilmového typu videa je v H.266 už v základu (v H.265 byla pouze jako rozšíření).

Výhodou H.266 by mělo být, že po „totálním nevěstinci“ kolem patent poolů na H.265 zastřešuje H.266 jen pár opravdu velkých korporací. Ano, jistě lze předpokládat, že se nějací patentoví trollové objeví, nicméně situace už by neměla být tak hrozná jako s H.265, kde to dění v měsících po uvedení formátu přimělo velké IT hráče spojit síly nad AV1 (kde se nakonec slučovaly vývojové projekty jako Ogg / Daala, Cisco Thor či Google VP10, jen aby byl od těch patent poolů pokoj).

Co očekávat v digitálním videu v roce 2021, 2022, …

Nejtěžší otázka na závěr. Pokud jste běžný spotřebitel, který se dívá na Netflix, tak vám to může být jedno. Nechte jako dosud na Netflixu, v jakém formátu si jeho aplikace ve vašem zařízení (od 12cm telefonu pro 200cm TV) z mateřských serverů data obstará. Někde Netflix už dnes provozuje AV1, jinde se drží osvědčených MPEG formátů pro jejich všeobecnou hw podporu. Jakmile najde něco lepšího, čím by ulevil svým datovým centrům či kapacitám linek v internetovém moři (včetně té vaší), klidně reencoduje celý svůj katalog a méně podstatným faktorem v rozhodování pro něj bude, zdali je to formát otevřený, nebo ne. Pokud bude H.266 jednoho dne třeba o třetinu lepší než AV1, nemůže to Netflix ignorovat.

Běžný uživatel fyzických formátů Blu-ray a UHD Blu-ray může celé H.266 / AV1 dění klidně ignorovat. Jeho systém zamrzl v H.264 / H.265 éře, obojí je parametrově pro dané rozlišení dostatečně dimenzované a nic dalšího nelze očekávat. A všechny pořádné 4k remastery na UHD Blu-ray jsou realizovány z nových kvalitních skenů a tyto 4k verze filmů budoucí 8k Netflix nijak zásadně nepřekoná, neboť nesmíme pominout další podstatný faktor: abyste si opravdu reálně vychutnali vyšší kvalitu 8k oproti 4k, museli byste doma mít TV s úhlopříčkou zhruba 5 a více metrů. Něco takového nemá doma nikdo a ani v nejbližších letech mít nebude. Je to zbytečnost i jen hypoteticky.

Méně častěji se vyskytující technologičtí nadšenci jistě budou mít z H.266, resp. x266 radost. Tak jako jejich automobiloví kolegové mají radost vždy, když jedou do obchoďáku pro 10 rohlíků a pytlík garam masaly svým Lamborghini Diablo čistě pro ten pocit z jízdy.

MIF obecny

H.266 je zkrátka evoluce, která za potřebami filmového průmyslu i běžných majitelů smartphonů zaostává. Místo H.266 si klidně do této věty historicky dosaďte H.265 (proto musel 4k Blu-ray přejít na 100GB BDXL disky), H.264 (proto musely přijít 15GB HD-DVD / 25GB Blu-ray místo 4,7GB DVD) či MPEG-2 (4,7GB DVD místo 650MB CD – i když zejména v Číně se frčelo s MPEG-2 na CD v podobě formátu Super Video CD). A samozřejmě od H.266 můžeme čekat lepší podporu HFR, HDR/10bit barev a dalších věcí, které třeba původní Blu-ray nezná.

Důležité bude, jak bude H.266 video vypadat. Já tvrdím, že třeba pro SD rozlišení typu 512×384 a analog zdroj videa je Xvid lepší volbou, i kdyby měl horší PSNR než x265, a to prostě proto, že tolik „nemaže“, tedy neodžehlí z videa jemné struktury (i kdyby mělo jít o jeho vlastní kompresní bloky). Ve výsledku vypadá subjektivně na menších úhlopříčkách lépe (a na velkých je 512×384 bída tak jako tak). x265 také „vypadá jinak“ než x264, protože jinak se signálem pracuje, zejména s jeho jemnými detaily/vysokými frekvencemi. Počítá totiž primárně, že je mu podstrčeno něco konkrétního. Něco s určitým rozlišením a určitou jemností detailů a když dostane něco jiného, nefunguje tak optimálně jako formát z předchozí generace,