Digitální signálové procesory TMS320C66×: maximální výpočetní výkon na prvním místě

30. 5. 2017

Doba čtení: 20 minut

Líbí se vám článek?
Podpořte redakci

Mezi nejvýkonnější DSP patří čipy řady TMS320C66× (zkráceně C66×), konkrétně pak obvody C6678 vybavené osmi jádry, které společně dosahují výkonu až 358 GMAC nebo 179 GFLOPS. Dnes se seznámíme se základními vlastnostmi těchto procesorů.

Přidat mezi oblíbené zdroje na Googlu

Obsah

1. Digitální signálové procesory TMS320C66×: výpočetní výkon na prvním místě

2. Základní parametry čipů řady TMS320C66×

3. Interní architektura čipů C6678

4. Přepínač TeraNet

5. Paměťový subsystém řady TMS320C66×

6. Multicore Navigator

7. Jádra C66× a jejich podpůrné moduly

8. Funkční jednotky

9. Pracovní registry, řídicí registry a akumulátory

10. Kooperace mezi jednotkami (datapath) A a B

11. Vektorové (SIMD) operace

12. Násobičky v jednotkách .M1 a .M2

13. Výkonové rozdíly mezi jádry TMS320C674× a TMS320C66×

14. Operace s hodnotami s plovoucí řádovou čárkou

15. Instrukční sada jader TMS320C66×

16. Odkazy na Internetu

1. Digitální signálové procesory TMS320C66×: výpočetní výkon na prvním místě

S dnes již velmi rozsáhlou rodinou digitálních signálových procesorů TI TMS320C6× jsme se již v tomto seriálu setkali, a to dokonce několikrát. Připomeňme si, že v této rodině nalezneme čipy určené pro různé aplikační oblasti. Základní rozdělení můžeme provést na čipy, které dokážou primárně zpracovávat celočíselná data popř. data s pevnou řádovou čárkou (FX – fixed point), a na čipy, které naopak zpracovávají hodnoty s plovoucí řádovou čárkou (FP – floating point); samozřejmě existují i kombinace, tj. čipy určené pro FX i FP operace. O jaké typy DSP se jedná, se dá poměrně jednoduše zjistit pohledem na číslo, které se nachází na devátém místě označení čipu. V následující tabulce jsou vypsáni hlavní zástupci celé rodiny TMS320C6×:

Označení	Zkráceno	Fixed point	Floating point	Poznámka
TMS320C62×	C62	✓	×	základní model, z něhož se postupně vyvinuly další řady
TMS320C67×	C67	×	✓	na úrovni zdrojového kódu kompatibilní s prvním čipem
TMS320C64×	C64	✓	×	na úrovni zdrojového kódu kompatibilní s prvním čipem
TMS320C67×+	C67+	×	✓	vylepšení čipu TMS320C67×
TMS320C64×+	C64×+	✓	×	vylepšení čipu TMS320C64×
TMS320C674×	C674	✓	✓	vznikl sloučením vlastností TMS320C64×+ a TMS320C67×+
TMS320C66×	C66	✓	✓	nová řada založená na TMS320C674×

Obrázek 1: Dispatcher použitý v klasických skalárních i superskalárních procesorech.

Už v základním modelu TMS320C62× se objevilo použití architektury VLIW s instrukčními slovy širokými 256 bitů, přičemž každé instrukční slovo bylo rozděleno do bitových polí představujících konkrétní instrukce určené pro vybraný funkční blok procesorového jádra. Kvůli paralelnímu běhu výpočtů bylo jádro rozděleno na dvě části nazvaná datapath A a datapath B; každá z těchto částí měla vlastní sadu registrů a vlastní čtveřici výkonných jednotek. Teoreticky tak bylo možné v jednom instrukčním slovu řídit všech osm jednotek současně.

Obrázek 2: VLIW s instrukcemi rozdělenými do bitových polí. Právě takto jsou instrukce skládány i v čipech TMS320C6×xx.

2. Základní parametry čipů řady TMS320C66×

V současnosti patří čipy řady TMS320C66× (dále budeme používat pouze zkrácené označení C66) mezi jedny z nejvýkonnějších DSP vůbec, což je také patrné při pohledu na „portfolio“ společnosti Texas Instruments, které je dnes nabízeno:

http://www.ti.com/lsds/media/images/processors/22801-dsp-scalability.png

Obrázek 3: Nabídka DSP společnosti Texas Instruments.

Nejvýkonnější jsou DSP TMS320C6678 neboli jen C6678, u nichž je špičkového výpočetního výkonu dosaženo jak relativně vysokou taktovací frekvencí dosahující až 1,4 GHz, tak i použitím rychlých násobiček a především díky tomu, že se na čipu nachází celkem osm samostatně pracujících jader nazývaných C66 Core Pac. Na výběr jsou však i méně výkonné čipy C66 s jedním, dvěma či čtyřmi jádry.

Každé z až osmi jader má samo o sobě úctyhodný výpočetní výkon. Dále uvedené hodnoty platí pro hodinovou frekvenci 1,4 GHz:

Operace typu	Maximální výkon	Poznámka
Fixed point	44,8 GMAC	Giga Multiply-ACcumulate operations per second
Floating point	22,4 GFLOPS	Giga Floating Point Operations Per Second

Teoretický maximální výkon celého čipu s osmi jádry C66 Core Pac s hodinovou frekvencí 1,4 GHz:

Operace typu	Maximální výkon	Poznámka
Fixed point	358 GMAC	Giga Multiply-ACcumulate operations per second
Floating point	179 GFLOPS	Giga Floating Point Operations Per Second

Poznámka: tohoto výkonu lze skutečně dosáhnout, protože VLIW architektura i dále popsaný TeraNet umožňuje jádra „zásobovat“ daty dostatečně rychle.

3. Interní architektura čipů C6678

Interní architektura čipů C6678, tedy prozatím nejvýkonnějších DSP této řady s osmi jádry, je naznačena na čtvrtém obrázku. Povšimněte si, že každý Core Pac je založen na DSP jádru C66, které je vybaveno vlastní cache první i druhé úrovně, přičemž cache druhé úrovně (větší kapacita, nižší rychlost) je společná pro instrukce i pro data zatímco cache první úrovně (menší kapacita, vyšší rychlost) je rozdělena na datovou cache (D-cache) a instrukční/programovou cache (I-cache). Jednotlivá jádra mohou přes přepínač nazvaný TeraNet komunikovat jak s hlavní pamětí, tak i s dalšími moduly, mezi něž patří mj. i přepínač pro Ethernet (samozřejmě gigabitový) a sběrnice PCI Express, kterou jsme si již v tomto seriálu stručně popsali. Ani na dalších I/O modulech se nešetřilo, protože kromě GPIO zde nalezneme i sériové sběrnice I²C, SPI, sériový port UART, TSIP (Telecom Serial Interface Port) atd. Nesmíme zapomenout na HyperLink, který je určen mj. i pro rychlou komunikaci s FPGA

Obrázek 4: Interní architektura čipů C6678 s osmi jádry C66 Core Pac.

4. Přepínač TeraNet

Přepínač TeraNet umožňuje nakonfigurovat propojení typu „každý s každým“ a je ve skutečnosti rozdělen na dvě části. První z nich slouží pro přenos dat, druhá pro konfiguraci jednotlivých zařízení (modulů). Při přenosech dat jsou uzly rozděleny podle své role na uzly typu master a uzly typu slave. Rozdíl mezi typy uzlů je jednoduchý – uzly typu master dokážou celou komunikaci iniciovat, umí určit, zda se má provádět čtení či zápis dat atd. zatímco uzly slave vystupují pasivně a pouze přijímají či posílají požadovaná data. Prakticky všechny výše zmíněné uzly připojené na TeraNet (CorePac, gigabitový Ethernet, PCI Express) mohou vystupovat v roli mastera, výjimku tvoří uzly se sériovými sběrnicemi I²C, SPI, sériovým portem UART apod.

5. Paměťový subsystém řady TMS320C66×

Paměťový subsystém digitálních signálových procesorů C66 je poměrně komplikovaný, což vyplývá z nutnosti zajistit všem osmi jádrům instrukce i data v požadované rychlosti a s malou latencí. Jak již víme z předchozí kapitoly, jsou ke každému jádru přidány paměti cache, přičemž L2 cache má kapacitu 512 kB a L1 cache kapacitu 64 kB rozdělenou na 32 kB pro data a 32 kB pro instrukce (program). Navíc je na čipu umístěna i paměť nazvaná Multicore Shared Memory (MSM), která je, jak ostatně přímo plyne z jejího názvu, sdílená mezi všemi jádry. Tato paměť má kapacitu 4 MB (4096 kB) a pro její realizaci je použita SRAM (stejně jako pro L1 a L2 cache), která je sice dražší než DRAM, ovšem umožňuje rychlejší přístup k uloženým datům. MSM je možné nakonfigurovat tak, aby pracovala jako sdílená cache třetí úrovně. K čipu je samozřejmě možné připojit i klasickou SDRAM (resp. přesněji řečeno DDR3 SDRAM). O řízení přístupu všech jader k MSM i SDRAM se stará řadič Multicore Shared Memory Controller (MSMC). Adresovatelná kapacita paměti je 8GB.

6. Multicore Navigator

Součástí čipů C6678 je i takzvaný Multicore Navigator, který dokáže zařídit komunikaci mezi jednotlivými moduly přes fronty (queue), kterých může existovat až 8192. Pokud je fronta nakonfigurována, je tok dat řízen i prováděn (na HW úrovni) Multicore Navigatorem a není tedy zapotřebí neustále programově měnit konfiguraci propojení přes TeraNet.

7. Jádra C66× a jejich podpůrné moduly

Každý Core Pac se skládá z několika modulů:

Vlastního jádra C66
Řadičem přístupu do paměti programu (Program Memory Controller, PMC)
Řadičem přístupu do paměti dat (Data Memory Controller, DMC)
Řadičem přístupu do L2 cache (Unified Memory Controller, UMC)
Řadičem přístupu do obecné paměti a do MSM
Rozhraním pro „boot“ jádra

Jádro C66 je rozděleno na:

Část pro načtení instrukce, její dekódování, dispatch atd.
Sadu pracovních registrů datapathu A (viz devátou kapitolu)
Sadu pracovních registrů datapathu B (viz devátou kapitolu)
Čtyři výkonné jednotky datapathu A (viz osmou kapitolu)
Čtyři výkonné jednotky datapathu B (viz osmou kapitolu)
Řídicí registry
Řadič přerušení
Řadič výjimek

Obrázek 5: Načtení, dekódování a dispatch instrukce v jednom jádru C66×.

8. Funkční jednotky

Každé jádro C66 tvořící ústřední část modulu Core Pac je rozděleno, jak je to ostatně u všech digitálních signálových procesorů C6000 obvyklé, na dvě části pojmenované datapath A a datapath B. Každá z těchto částí obsahuje sadu pracovních registrů (konkrétně je v každé sadě umístěno třicet dva 32bitových registrů, celkem tedy 64 32bitových registrů) a čtyři výkonné jednotky pojmenované (.L1, .S1, .M1, .D1 pro část A a .L2, .S2, .M2, .D2 pro část B):

+-----------------+-----------------+
|   Registry Ax   |   Registry Bx   |
+-----------------+-----------------+
   ⇅   ⇅   ⇅   ⇅     ⇅   ⇅   ⇅   ⇅
 +---+---+---+---+ +---+---+---+---+
 |.L1|.S1|.M1|.D1| |.D2|.M2|.S2|.L2|
 +---+---+---+---+ +---+---+---+---+

Základní funkci různých typů jednotek shrnuje následující tabulka:

Jednotka	Funkce
.Lx	ALU pro operandy šířky 32 bitů, 40 bitů či 64 bitů
.Sx	32bitová ALU + shiftery pro operandy šířky 32 bitů či 40 bitů, skoky
.Mx	násobička popsaná níže, která též provádí MAC operace atd.
.Dx	jednodušší ALU (součet, rozdíl), datové přenosy, výpočty adres (offsety) apod.

Poznámka: oproti původním jádrům TMS320C674× jsou jádra TMS320C66× vylepšena o přímou podporu pro 64bitové operandy, což se dotknulo především jednotek .Lx a .Sx. (zkráceně je možné říci, že se všechny interní cesty a sběrnice rozšířily na dvojnásobnou šířku). Rozšířeny byly i možnosti násobiček, jimž je kvůli jejich stěžejnímu významu věnována samostatná kapitola.

9. Pracovní registry, řídicí registry a akumulátory

Jak jsme si již ve stručnosti řekli v předchozí kapitole, najdeme v každém jádru C66 celkem 64 pracovních registrů, z nichž každý má šířku 32 bitů. Tyto registry jsou rozděleny na dvě poloviny podle toho, ke které datapath patří:

Datapath	Registry
A	A0 .. A31
B	B0 .. B31

Pokud se používají operandy o šířce 40 bitů či 64 bitů, je nutné použít registrový pár (dvojici sousedních pracovních registrů), přičemž v případě operandů s šířkou 40 bitů má u druhého registru význam jen spodních osm bitů. Některé operace podporují i operandy o šířce 128 bitů, v tomto případě se používají čtyři sousední registry.

10. Kooperace mezi jednotkami (datapath) A a B

Každá z jednotek v části A může pro svůj vstupní operand (či operandy) použít libovolný registr A0 až A31; to samé samozřejmě platí pro část B a registry B0 až B31. Mohlo by se tedy zdát, že každá část je zcela samostatná a oddělená od části druhé; ve skutečnosti je však v reálných aplikacích nutné, aby bylo možné data mezi oběma částmi přenášet. To pro adresy zabezpečují jednotky .D1 a .D2, které pomocí volitelného přepínače dokážou uložit výsledná data do vybraného registru z druhé jednotky (za to ovšem zaplatíme pozdržením přenosu o jeden hodinový cyklus). Navíc je možné vždy u vybrané jednotky .Lx, .Sx či .Mx zvolit, že druhý operand bude vybrán z opačné části. To zajišťují dva jednosměrné komunikační kanály nazvané crosspath(s) a označované 1X a 2X (ovšem je nutné si uvědomit, že takto lze zvolit „cizí“ operand jen u jediné jednotky, navíc se vždy může přenést obsah jednoho registru, nikoli registrového páru). Zjednodušeně lze tok dat od vstupních operandů k operandům výstupním naznačit takto (už je asi zřejmé, proč mám u části B jednotky uvedeny v opačném pořadí):

+------------------+------------------+
|   Registry Ax    |    Registry Bx   |
|                2x|1x                |
+------------------+------------------+
 (1x)(1x)(1x)            (2x)(2x)(2x)
   ↓   ↓   ↓   ↓       ↓   ↓   ↓   ↓
 +---+---+---+---+   +---+---+---+---+
 |.L1|.S1|.M1|.D1|   |.D2|.M2|.S2|.L2|
 +---+---+---+---+   +---+---+---+---+
   ↓   ↓   ↓   ↓ ↘   ↙ ↓   ↓   ↓   ↓
+------------------+------------------+
|   Registry Ax    |    Registry Bx   |
+------------------+------------------+

11. Vektorové (SIMD) operace

I když registry mají šířku „pouze“ 32 bitů, je ve skutečnosti možné na jádrech C66× provádět některé operce i s delšími operandy. Maximální délku mají 128bitové vektory, které jsou rozděleny na 32bitové, 16bitové či osmibitové části. Příkladem může být instrukce QMPY32 určená pro vynásobení čtyř dvojic operandů, přičemž každý operand má šířku 32 bitů. Naproti tomu méně výkonná ale stále používaná jádra C64×+ a C674 sice taktéž podporují SIMD operace, ale pouze s maximálně 32bitovými vektory, přičemž každý vektor může obsahovat jediný 32bitový prvek, dva 16bitové prvky nebo čtyři prvky osmibitové.

Operace	TMS320C674×	TMS320C66×
SIMD	32 bitů (2×16, 4×8)	128 bitů (4×32, 4×16, 4×8)

Obrázek 7: Schéma systému patřícího do kategorie SIMD.

12. Násobičky v jednotkách .M1 a .M2

Násobičky tvoří ústřední část prakticky každého digitálního signálového procesoru, takže se jim věnujme podrobněji. U jader C66× jsou rychlé násobičky součásí jednotek/bloků .Mx. Označení „rychlé“ je zde skutečně na místě, protože v jednom hodinovém cyklu dokáže každá násobička provést jeden z následujících kroků:

Čtyři násobení (nebo MAC) 32×32 bitů
Šestnáct násobení (nebo MAC) 16×16 bitů
Čtyři násobení 16×32 bitů
Čtyři operace MAC na operandy 8×8 bitů
Čtyři operace MAC na operandy 16×16 bitů

To však není zdaleka vše, protože v některých aplikacích (FFT, modemy) se provádí násobení komplexních čísel. Proto každá jednotka .Mx dokáže v každém hodinovém cyklu provést vynásobení komplexních čísel 16×16 bitů nebo 32×32 bitů se zaokrouhlením výsledků. Další podporovanou operací jednotek .Mx je násobení vektorů (se dvěma prvky) či matic (o rozměrech 2×2 prvky).

Poznámka: nezapomeňme, že výše provedené operace se danou rychlostí provádí v jediné jednotce .Mx, přičemž v každém jádru jsou dvě tyto jednotky a celkem je k dispozici osm paralelně pracujících jader.

13. Výkonové rozdíly mezi jádry TMS320C674× a TMS320C66×

Pokud jste se podívali na obrázek odkazovaný ve třetí kapitole, pravděpodobně jste si všimli, že TI v současnosti kromě výkonných jader TMS320C66×/C66× nabízí i DSP postavené na TMS320C674×/C674× (z označení plyne, že se jedná o kombinaci TMS320C64×+ a TMS320C67×+). Vzhledem k tomu, že C66× je představováno jako „high performance DSP“ zatímco C674× jako „low-power“, nabízí se otázka, zda jsou čipy C66× skutečně tak výkonné nebo zda se jedná o kosmetické rozdíly. Pro porovnání se tedy podívejme na následující tabulku, v níž jsou porovnány typické DSP operace, tj. násobení následované součtem (akumulací) a základní operací s FP operandy. Hodnoty v tabulce ukazují, kolik těchto operací může proběhnou současně na jediném jádru:

Operace	TMS320C674×	TMS320C66×
MAC 16×16 bitů, FX	8×	32×
MAC 32×32 bitů, FX	2×	8×
MAC FP, float/single	2×	8×
SIMD	32 bitů (2×16, 4×8)	128 bitů (4×32, 4×16, 4×8)

14. Operace s hodnotami s plovoucí řádovou čárkou

Kromě celočíselných operací a operací nad hodnotami reprezentovanými ve Q-formátu podporují jádra C66× i výpočty nad hodnotami s plovoucí řádovou čárkou (floating point, FP). Zajímavé je, že sada pracovních registrů zůstává zachována, nenajdeme zde tedy striktní rozdělení na registry celočíselné a registry určené pro FP operace. Pokud se používá formát single/float (podle normy IEEE 754), je pro uložení operandu použit jeden registr, zatímco v případě formátu double je nutné použít dva sousední registry. I FP operace jsou rozděleny do jednotek; takže například instrukci FADDDP/FADDSP (součet pro typ double/single) je možné provést v jednotkách .Lx či .Sx zatímco instrukce FMPYDP (rychlé násobení dvou hodnot typu double) je určena pro jednotku .M1 či pro jednotku .M2.

15. Instrukční sada jader TMS320C66×

V instrukčním souboru nalezneme dva typy instrukcí: běžné instrukce o šířce 32 bitů a vybrané instrukce o šířce pouhých šestnácti bitů. Do druhé skupiny samozřejmě mohla být vybrána jen omezená sada instrukcí; konkrétně se jedná o instrukce typu Load & Store a dále základní instrukce pro aritmeticko-logické jednotky (ADD, SUB, ADDAW, SUBAW. Dále jsou instrukce rozděleny podle toho, pro kterou výkonnou (funkční) jednotku jsou určeny: .Lx, .Sx, .Dx či .Mx.

Instrukce pro jednotky .D:

Instrukce	Instrukce
ADD	OR
ADDAB	STB
ADDAD	STB
ADDAH	STDW
ADDAW	STH
ADD2	STH
AND	STNDW
ANDN	STNW
LDB	STW
LDDW	SUB
LDH	SUBAB
LDH	SUBAH
LDNDW	SUBAW
LDNW	SUB2
LDW	XOR
LDW	ZERO
MV	MVK

Instrukce pro jednotky .L:

Instrukce	Instrukce	Instrukce	Instrukce
ABS	DPACK2	NORM	SPTRUNC
ABS2	DPACKX2	NOT	SSUB
ADD	DPINT	OR	SSUB2
ADDDP	DPSP	PACK2	SUB
ADDSP	DPTRUNC	PACKH2	SUBABS4
ADDSUB	INTDP	PACKH4	SUBC
ADDSUB2	INTDPU	PACKHL2	SUBDP
ADDU	INTSP	PACKLH2	SUBSP
ADD2	INTSPU	PACKL4	SUBU
ADD4	LMBD	SADD	SUB2
AND	MAX2	SADDSUB	SUB4
ANDN	MAXU4	SADDSUB2	SWAP2
CMPEQ	MIN2	SAT	SWAP4
CMPGT	MINU4	SHFL3	UNPKHU4
CMPGTU	MV	SHLMB	UNPKLU4
CMPLT	MVK	SHRMB	XOR
CMPLTU	NEG	SPINT	ZERO

Instrukce pro jednotky .S:

Instrukce	Instrukce	Instrukce	Instrukce
ABSDP	CMPEQ2	MVKH	MVKLH SET
ABSSP	CMPEQ4	MVKL	SHL
ADD	CMPEQDP	MVKH	MVKLH
ADDDP	CMPEQSP	NEG	SHR
ADDK	CMPGT2	NOT	SHR2
ADDKPC	CMPGTDP	OR	SHRMB
ADDSP	CMPGTSP	PACK2	SHRU
ADD2	CMPGTU4	PACKH2	SHRU2
AND	CMPLT2	PACKHL2	SPACK2
ANDN	CMPLTDP	PACKLH2	SPACKU4
B	CMPLTSP	RCPDP	SPDP
CMPLTU4	RCPSP	SSHL	SUBDP
DMPYU4	RPACK2	SUB	RSQRDP
B	IRP	NRP	SHLMB
BDEC	EXTU	RSQRSP	SUBSP
BNOP	MAX2	SADD	SUB2
MIN2	SADD2	SWAP2	ZERO
BPOS	MV	SADDSU2	UNPKHU4
CALLP	MVC	SADDUS2	UNPKLU4
CLR	MVK	SADDU4	XOR

Instrukce pro jednotky .M:

Instrukce	Instrukce	Instrukce	Instrukce
AVG2	DOTPUS4	MPYIL	MPY32
AVGU4	DOTPU4	MPYILR	MPY32
BITC4	GMPY	MPYLH	MPY32SU
BITR	GMPY4	MPYLHU	MPY32U
CMPY	MPY	MPYLI	MPY32US
CMPYR	MPYDP	MPYLIR	MVD
CMPYR1	MPYH	MPYLSHU	ROTL
DDOTP4	MPYHI	MPYLUHS	SHFL
DDOTPH2	MPYHIR	MPYSP	SMPY
DDOTPH2R	MPYHL	MPYSPDP	SMPYH
DDOTPL2	MPYHLU	MPYSP2DP	SMPYHL
DDOTPL2R	MPYHSLU	MPYSU	SMPYLH
DEAL	MPYHSU	MPYSU4
DOTP2	MPYHU	MPYU	SMPY32
DOTPN2	MPYHULS	MPYU4	SSHVL
DOTPNRSU2	MPYHUS	MPYUS	SSHVR
DOTPNRUS2	MPYI	MPYUS4	XORMPY
DOTPRSU2	MPYID	MPY2	XPND2
DOTPRUS2	MPYIH	MPY2IR	XPND4
DOTPSU4	MPYIHR