V C++ se da krasne skalovat pomoci OpenMP (#pragma omp parallel for schedule(static)) v nejvnejsejsi smycce.
Co je problem, ze to moc nefunguje s printfem(dokonce se to brutalne zpomali). Oplati se dokonce nasypat vysledky do alokovaneho pole a to pak seriove projit a vyblit ven. Vzdycky je ale output brutalne pomalej. Na mem systemu v 8 vlaknech samotny vypocet 4096x4096x255 trva cca 0.140s - kazde bliti vysledku udela minimalne 3.5s(serializuju nasypane pole).
Nevim, jestli se to vubec da na tom benchmarkovat, kdyz io dela takovy obrovsky rozdil.
Pozn.: data v poli opravdu jsou, vypocet se neodoptimalizovava... kontroloval jsem to nekolika vypisy z pole.