https://icl.utk.edu/~luszczek/teaching/courses/fall2013/cosc530/CS530Project_cell.pdf
Pak lze najít na konkurenčním webu živě, ale nevěnuje se tomu tolik pozornosti.
Prostě ve zkratce.... složil si několik teoretických CPU do jednoho a jak už víme u ATI 6990 s dvěma jádry, tak sice teoretický výkon máš, ale napsat na to je už oříšek. Kord, když velkou část nenesl OS ani výrobce, ale právě ten nebožtík co na to programoval...
Ty SPE jsou obycejna orezana "cpu" jadra ktere v dnesni dobe jsou ekvivalentem jadrum v akceleratorech aka unified shaders, na kterych bezi kod na gpu. Je tam nejaky SIMD a hromadka lokalni pameti a synchronizacni primitiva (mailbox), ktere se nachazi ve vsech rozumnych mutlicore resenich (i to RPi pico mcu to ma).
Stejne funguji moderni SOCy ktere maji GPU cast a unifikovanou / sdilenou RAM pamet s hlavnim procesorem.
Neni tam zadny jiny magicky pristup, takze nevim kde vidis neco zazracneho co je nutno dnes extra vysvetlovat a popisovat.
I ten odkazovany dokument vysvetluje potize s programovanim jen tim, ze SPE je in-order a bez cache - tomu nepomuze ani svecena voda (vzpomente si na inorder atomy.. a ty meli alespon tu cache).
Ja v tom vidim primitivni GPGPU reseni, ze tady mate architekturu a posluzte si. I to gpgpu funguje pohodlneji kdyz mate neco jako CUDA od vyrobce a nemusite si psat shadery v asm :-)
Ono jakekoliv atypicky DSP / SIMD jadro / manycore architektura se blbe programuje, kdyz uzivatel ocekava ze jeho sranda-kod pojede okamzite optimalne - vetsina dodavatelu ani neumoznovala low level / nativni kod, ale dodavali jenom akceleracni libku s nejcasteji pouzivanymi funkcemi, ktere napsal nekdo v assembleru.