V tomto případě je to myslím spíš záležitost time-sharingu. Jedná se o to, že při zpracování většího množství procesů se stejnou prioritou je každému z nich přidělena poměrná část času a jádro pak musí velmi často přeplánovat úlohy a nejen cache, ale i celý stack je nutné uklidit a obnovit. Při sníženém množství procesů klesá režie jádra. Pokud spolu procesy nekomunikují a jsou vlastně na sobě nezávislé a současně nemusí čekat na I/O, pak režie jádra je hlavním faktorem, který ovlivňuje výkon clusteru. Tedy - výkon roste do určité míry superlineárně, následně pak lineárně a posléze logaritmicky podle toho, kdy se snižující režie jádra nodů vyváží či převáží režií clusteru.
Pokud si pamatuji, tak ve skriptech (Paralelní systémy a algoritmy - prof. Tvrdík, FEL ČVUT) se superlineární zrychlení vysvětluje především správným rozdělením problému (některý z procesorů má řešení "na kraji" stavového prostoru).
Mimochodem bych doporučoval si zmiňovaná skripta přečíst všem, co chtějí o teorii paralelních výpočtů něco vědět (i autorům článku, ať nemusí objevovat ameriku).