Me by stacilo srovnani treba i s pre-io_uring kernelem (pred 5.1), pripadne pak s klasickou dnesni verzi a temito high perf patchema.
Podle toho co to je, to vypada jako dalsi uroven pod O_DIRECT, s celkem privatnim api.. takze se to asi bude hodne tezko portovat do starych aplikaci - tezit z tohoto budou jen vysoce threadovane a hlavne random access aplikace.. ktere jsou schopny vytvorit ty requesty a pockat si na asynchronni completion.
třeba tady https://kernel.dk/io_uring.pdf, článků na to je ale dost všude možně. Ano, dělají se interní fronty, posílá se co nejvíce operací najednou a dává se vědět najednou do user space o dokončených operacích. Doporučuji i zdrojový kód a hlavně komentáře v něm https://github.com/torvalds/linux/blob/master/fs/io_uring.c (není to ta optimalizovanější verze ze zprávičky). Vysvětlení pro lidi je třeba na https://thenewstack.io/how-io_uring-and-ebpf-will-revolutionize-programming-in-linux/
A z pohledu aplikacniho programatora, viz tuhle io_uring implementaci copy:
https://github.com/axboe/liburing/blob/master/examples/io_uring-cp.c