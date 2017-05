Obsah

1. Digitální signálové procesory TMS320C66×: výpočetní výkon na prvním místě

2. Základní parametry čipů řady TMS320C66×

3. Interní architektura čipů C6678

4. Přepínač TeraNet

5. Paměťový subsystém řady TMS320C66×

6. Multicore Navigator

7. Jádra C66× a jejich podpůrné moduly

8. Funkční jednotky

9. Pracovní registry, řídicí registry a akumulátory

10. Kooperace mezi jednotkami (datapath) A a B

11. Vektorové (SIMD) operace

12. Násobičky v jednotkách .M1 a .M2

13. Výkonové rozdíly mezi jádry TMS320C674× a TMS320C66×

14. Operace s hodnotami s plovoucí řádovou čárkou

15. Instrukční sada jader TMS320C66×

16. Odkazy na Internetu

1. Digitální signálové procesory TMS320C66×: výpočetní výkon na prvním místě

S dnes již velmi rozsáhlou rodinou digitálních signálových procesorů TI TMS320C6× jsme se již v tomto seriálu setkali, a to dokonce několikrát. Připomeňme si, že v této rodině nalezneme čipy určené pro různé aplikační oblasti. Základní rozdělení můžeme provést na čipy, které dokážou primárně zpracovávat celočíselná data popř. data s pevnou řádovou čárkou (FX – fixed point), a na čipy, které naopak zpracovávají hodnoty s plovoucí řádovou čárkou (FP – floating point); samozřejmě existují i kombinace, tj. čipy určené pro FX i FP operace. O jaké typy DSP se jedná, se dá poměrně jednoduše zjistit pohledem na číslo, které se nachází na devátém místě označení čipu. V následující tabulce jsou vypsáni hlavní zástupci celé rodiny TMS320C6×:

Označení Zkráceno Fixed point Floating point Poznámka TMS320C62× C62 ✓ × základní model, z něhož se postupně vyvinuly další řady TMS320C67× C67 × ✓ na úrovni zdrojového kódu kompatibilní s prvním čipem TMS320C64× C64 ✓ × na úrovni zdrojového kódu kompatibilní s prvním čipem TMS320C67×+ C67+ × ✓ vylepšení čipu TMS320C67× TMS320C64×+ C64×+ ✓ × vylepšení čipu TMS320C64× TMS320C674× C674 ✓ ✓ vznikl sloučením vlastností TMS320C64×+ a TMS320C67×+ TMS320C66× C66 ✓ ✓ nová řada založená na TMS320C674×

Obrázek 1: Dispatcher použitý v klasických skalárních i superskalárních procesorech.

Už v základním modelu TMS320C62× se objevilo použití architektury VLIW s instrukčními slovy širokými 256 bitů, přičemž každé instrukční slovo bylo rozděleno do bitových polí představujících konkrétní instrukce určené pro vybraný funkční blok procesorového jádra. Kvůli paralelnímu běhu výpočtů bylo jádro rozděleno na dvě části nazvaná datapath A a datapath B; každá z těchto částí měla vlastní sadu registrů a vlastní čtveřici výkonných jednotek. Teoreticky tak bylo možné v jednom instrukčním slovu řídit všech osm jednotek současně.

Obrázek 2: VLIW s instrukcemi rozdělenými do bitových polí. Právě takto jsou instrukce skládány i v čipech TMS320C6×xx.

2. Základní parametry čipů řady TMS320C66×

V současnosti patří čipy řady TMS320C66× (dále budeme používat pouze zkrácené označení C66) mezi jedny z nejvýkonnějších DSP vůbec, což je také patrné při pohledu na „portfolio“ společnosti Texas Instruments, které je dnes nabízeno:

Obrázek 3: Nabídka DSP společnosti Texas Instruments.

Nejvýkonnější jsou DSP TMS320C6678 neboli jen C6678, u nichž je špičkového výpočetního výkonu dosaženo jak relativně vysokou taktovací frekvencí dosahující až 1,4 GHz, tak i použitím rychlých násobiček a především díky tomu, že se na čipu nachází celkem osm samostatně pracujících jader nazývaných C66 Core Pac. Na výběr jsou však i méně výkonné čipy C66 s jedním, dvěma či čtyřmi jádry.

Každé z až osmi jader má samo o sobě úctyhodný výpočetní výkon. Dále uvedené hodnoty platí pro hodinovou frekvenci 1,4 GHz:

Operace typu Maximální výkon Poznámka Fixed point 44,8 GMAC Giga Multiply-ACcumulate operations per second Floating point 22,4 GFLOPS Giga Floating Point Operations Per Second

Teoretický maximální výkon celého čipu s osmi jádry C66 Core Pac s hodinovou frekvencí 1,4 GHz:

Operace typu Maximální výkon Poznámka Fixed point 358 GMAC Giga Multiply-ACcumulate operations per second Floating point 179 GFLOPS Giga Floating Point Operations Per Second

Poznámka: tohoto výkonu lze skutečně dosáhnout, protože VLIW architektura i dále popsaný TeraNet umožňuje jádra „zásobovat“ daty dostatečně rychle.

3. Interní architektura čipů C6678

Interní architektura čipů C6678, tedy prozatím nejvýkonnějších DSP této řady s osmi jádry, je naznačena na čtvrtém obrázku. Povšimněte si, že každý Core Pac je založen na DSP jádru C66, které je vybaveno vlastní cache první i druhé úrovně, přičemž cache druhé úrovně (větší kapacita, nižší rychlost) je společná pro instrukce i pro data zatímco cache první úrovně (menší kapacita, vyšší rychlost) je rozdělena na datovou cache (D-cache) a instrukční/programovou cache (I-cache). Jednotlivá jádra mohou přes přepínač nazvaný TeraNet komunikovat jak s hlavní pamětí, tak i s dalšími moduly, mezi něž patří mj. i přepínač pro Ethernet (samozřejmě gigabitový) a sběrnice PCI Express, kterou jsme si již v tomto seriálu stručně popsali. Ani na dalších I/O modulech se nešetřilo, protože kromě GPIO zde nalezneme i sériové sběrnice I2C, SPI, sériový port UART, TSIP (Telecom Serial Interface Port) atd. Nesmíme zapomenout na HyperLink, který je určen mj. i pro rychlou komunikaci s FPGA

Obrázek 4: Interní architektura čipů C6678 s osmi jádry C66 Core Pac.

4. Přepínač TeraNet

Přepínač TeraNet umožňuje nakonfigurovat propojení typu „každý s každým“ a je ve skutečnosti rozdělen na dvě části. První z nich slouží pro přenos dat, druhá pro konfiguraci jednotlivých zařízení (modulů). Při přenosech dat jsou uzly rozděleny podle své role na uzly typu master a uzly typu slave. Rozdíl mezi typy uzlů je jednoduchý – uzly typu master dokážou celou komunikaci iniciovat, umí určit, zda se má provádět čtení či zápis dat atd. zatímco uzly slave vystupují pasivně a pouze přijímají či posílají požadovaná data. Prakticky všechny výše zmíněné uzly připojené na TeraNet (CorePac, gigabitový Ethernet, PCI Express) mohou vystupovat v roli mastera, výjimku tvoří uzly se sériovými sběrnicemi I2C, SPI, sériovým portem UART apod.

5. Paměťový subsystém řady TMS320C66×

Paměťový subsystém digitálních signálových procesorů C66 je poměrně komplikovaný, což vyplývá z nutnosti zajistit všem osmi jádrům instrukce i data v požadované rychlosti a s malou latencí. Jak již víme z předchozí kapitoly, jsou ke každému jádru přidány paměti cache, přičemž L2 cache má kapacitu 512 kB a L1 cache kapacitu 64 kB rozdělenou na 32 kB pro data a 32 kB pro instrukce (program). Navíc je na čipu umístěna i paměť nazvaná Multicore Shared Memory (MSM), která je, jak ostatně přímo plyne z jejího názvu, sdílená mezi všemi jádry. Tato paměť má kapacitu 4 MB (4096 kB) a pro její realizaci je použita SRAM (stejně jako pro L1 a L2 cache), která je sice dražší než DRAM, ovšem umožňuje rychlejší přístup k uloženým datům. MSM je možné nakonfigurovat tak, aby pracovala jako sdílená cache třetí úrovně. K čipu je samozřejmě možné připojit i klasickou SDRAM (resp. přesněji řečeno DDR3 SDRAM). O řízení přístupu všech jader k MSM i SDRAM se stará řadič Multicore Shared Memory Controller (MSMC). Adresovatelná kapacita paměti je 8GB.

6. Multicore Navigator

Součástí čipů C6678 je i takzvaný Multicore Navigator, který dokáže zařídit komunikaci mezi jednotlivými moduly přes fronty (queue), kterých může existovat až 8192. Pokud je fronta nakonfigurována, je tok dat řízen i prováděn (na HW úrovni) Multicore Navigatorem a není tedy zapotřebí neustále programově měnit konfiguraci propojení přes TeraNet.

7. Jádra C66× a jejich podpůrné moduly

Každý Core Pac se skládá z několika modulů:

Vlastního jádra C66 Řadičem přístupu do paměti programu (Program Memory Controller, PMC) Řadičem přístupu do paměti dat (Data Memory Controller, DMC) Řadičem přístupu do L2 cache (Unified Memory Controller, UMC) Řadičem přístupu do obecné paměti a do MSM Rozhraním pro „boot“ jádra

Jádro C66 je rozděleno na:

Část pro načtení instrukce, její dekódování, dispatch atd. Sadu pracovních registrů datapathu A (viz devátou kapitolu) Sadu pracovních registrů datapathu B (viz devátou kapitolu) Čtyři výkonné jednotky datapathu A (viz osmou kapitolu) Čtyři výkonné jednotky datapathu B (viz osmou kapitolu) Řídicí registry Řadič přerušení Řadič výjimek

Obrázek 5: Načtení, dekódování a dispatch instrukce v jednom jádru C66×.

8. Funkční jednotky

Každé jádro C66 tvořící ústřední část modulu Core Pac je rozděleno, jak je to ostatně u všech digitálních signálových procesorů C6000 obvyklé, na dvě části pojmenované datapath A a datapath B. Každá z těchto částí obsahuje sadu pracovních registrů (konkrétně je v každé sadě umístěno třicet dva 32bitových registrů, celkem tedy 64 32bitových registrů) a čtyři výkonné jednotky pojmenované (.L1, .S1, .M1, .D1 pro část A a .L2, .S2, .M2, .D2 pro část B):

+-----------------+-----------------+ | Registry Ax | Registry Bx | +-----------------+-----------------+ ⇅ ⇅ ⇅ ⇅ ⇅ ⇅ ⇅ ⇅ +---+---+---+---+ +---+---+---+---+ |.L1|.S1|.M1|.D1| |.D2|.M2|.S2|.L2| +---+---+---+---+ +---+---+---+---+

Základní funkci různých typů jednotek shrnuje následující tabulka:

Jednotka Funkce .Lx ALU pro operandy šířky 32 bitů, 40 bitů či 64 bitů .Sx 32bitová ALU + shiftery pro operandy šířky 32 bitů či 40 bitů, skoky .Mx násobička popsaná níže, která též provádí MAC operace atd. .Dx jednodušší ALU (součet, rozdíl), datové přenosy, výpočty adres (offsety) apod.

Poznámka: oproti původním jádrům TMS320C674× jsou jádra TMS320C66× vylepšena o přímou podporu pro 64bitové operandy, což se dotknulo především jednotek .Lx a .Sx. (zkráceně je možné říci, že se všechny interní cesty a sběrnice rozšířily na dvojnásobnou šířku). Rozšířeny byly i možnosti násobiček, jimž je kvůli jejich stěžejnímu významu věnována samostatná kapitola.

9. Pracovní registry, řídicí registry a akumulátory

Jak jsme si již ve stručnosti řekli v předchozí kapitole, najdeme v každém jádru C66 celkem 64 pracovních registrů, z nichž každý má šířku 32 bitů. Tyto registry jsou rozděleny na dvě poloviny podle toho, ke které datapath patří:

Datapath Registry A A0 .. A31 B B0 .. B31

Pokud se používají operandy o šířce 40 bitů či 64 bitů, je nutné použít registrový pár (dvojici sousedních pracovních registrů), přičemž v případě operandů s šířkou 40 bitů má u druhého registru význam jen spodních osm bitů. Některé operace podporují i operandy o šířce 128 bitů, v tomto případě se používají čtyři sousední registry.

10. Kooperace mezi jednotkami (datapath) A a B

Každá z jednotek v části A může pro svůj vstupní operand (či operandy) použít libovolný registr A0 až A31; to samé samozřejmě platí pro část B a registry B0 až B31. Mohlo by se tedy zdát, že každá část je zcela samostatná a oddělená od části druhé; ve skutečnosti je však v reálných aplikacích nutné, aby bylo možné data mezi oběma částmi přenášet. To pro adresy zabezpečují jednotky .D1 a .D2, které pomocí volitelného přepínače dokážou uložit výsledná data do vybraného registru z druhé jednotky (za to ovšem zaplatíme pozdržením přenosu o jeden hodinový cyklus). Navíc je možné vždy u vybrané jednotky .Lx, .Sx či .Mx zvolit, že druhý operand bude vybrán z opačné části. To zajišťují dva jednosměrné komunikační kanály nazvané crosspath(s) a označované 1X a 2X (ovšem je nutné si uvědomit, že takto lze zvolit „cizí“ operand jen u jediné jednotky, navíc se vždy může přenést obsah jednoho registru, nikoli registrového páru). Zjednodušeně lze tok dat od vstupních operandů k operandům výstupním naznačit takto (už je asi zřejmé, proč mám u části B jednotky uvedeny v opačném pořadí):

+------------------+------------------+ | Registry Ax | Registry Bx | | 2x|1x | +------------------+------------------+ (1x)(1x)(1x) (2x)(2x)(2x) ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ +---+---+---+---+ +---+---+---+---+ |.L1|.S1|.M1|.D1| |.D2|.M2|.S2|.L2| +---+---+---+---+ +---+---+---+---+ ↓ ↓ ↓ ↓ ↘ ↙ ↓ ↓ ↓ ↓ +------------------+------------------+ | Registry Ax | Registry Bx | +------------------+------------------+

11. Vektorové (SIMD) operace

I když registry mají šířku „pouze“ 32 bitů, je ve skutečnosti možné na jádrech C66× provádět některé operce i s delšími operandy. Maximální délku mají 128bitové vektory, které jsou rozděleny na 32bitové, 16bitové či osmibitové části. Příkladem může být instrukce QMPY32 určená pro vynásobení čtyř dvojic operandů, přičemž každý operand má šířku 32 bitů. Naproti tomu méně výkonná ale stále používaná jádra C64×+ a C674 sice taktéž podporují SIMD operace, ale pouze s maximálně 32bitovými vektory, přičemž každý vektor může obsahovat jediný 32bitový prvek, dva 16bitové prvky nebo čtyři prvky osmibitové.

Operace TMS320C674× TMS320C66× SIMD 32 bitů (2×16, 4×8) 128 bitů (4×32, 4×16, 4×8)

Obrázek 7: Schéma systému patřícího do kategorie SIMD.

12. Násobičky v jednotkách .M1 a .M2

Násobičky tvoří ústřední část prakticky každého digitálního signálového procesoru, takže se jim věnujme podrobněji. U jader C66× jsou rychlé násobičky součásí jednotek/bloků .Mx. Označení „rychlé“ je zde skutečně na místě, protože v jednom hodinovém cyklu dokáže každá násobička provést jeden z následujících kroků:

Čtyři násobení (nebo MAC) 32×32 bitů

Šestnáct násobení (nebo MAC) 16×16 bitů

Čtyři násobení 16×32 bitů

Čtyři operace MAC na operandy 8×8 bitů

Čtyři operace MAC na operandy 16×16 bitů

To však není zdaleka vše, protože v některých aplikacích (FFT, modemy) se provádí násobení komplexních čísel. Proto každá jednotka .Mx dokáže v každém hodinovém cyklu provést vynásobení komplexních čísel 16×16 bitů nebo 32×32 bitů se zaokrouhlením výsledků. Další podporovanou operací jednotek .Mx je násobení vektorů (se dvěma prvky) či matic (o rozměrech 2×2 prvky).

Poznámka: nezapomeňme, že výše provedené operace se danou rychlostí provádí v jediné jednotce .Mx, přičemž v každém jádru jsou dvě tyto jednotky a celkem je k dispozici osm paralelně pracujících jader.

13. Výkonové rozdíly mezi jádry TMS320C674× a TMS320C66×

Pokud jste se podívali na obrázek odkazovaný ve třetí kapitole, pravděpodobně jste si všimli, že TI v současnosti kromě výkonných jader TMS320C66×/C66× nabízí i DSP postavené na TMS320C674×/C674× (z označení plyne, že se jedná o kombinaci TMS320C64×+ a TMS320C67×+). Vzhledem k tomu, že C66× je představováno jako „high performance DSP“ zatímco C674× jako „low-power“, nabízí se otázka, zda jsou čipy C66× skutečně tak výkonné nebo zda se jedná o kosmetické rozdíly. Pro porovnání se tedy podívejme na následující tabulku, v níž jsou porovnány typické DSP operace, tj. násobení následované součtem (akumulací) a základní operací s FP operandy. Hodnoty v tabulce ukazují, kolik těchto operací může proběhnou současně na jediném jádru:

Operace TMS320C674× TMS320C66× MAC 16×16 bitů, FX 8× 32× MAC 32×32 bitů, FX 2× 8× MAC FP, float/single 2× 8× SIMD 32 bitů (2×16, 4×8) 128 bitů (4×32, 4×16, 4×8)

14. Operace s hodnotami s plovoucí řádovou čárkou

Kromě celočíselných operací a operací nad hodnotami reprezentovanými ve Q-formátu podporují jádra C66× i výpočty nad hodnotami s plovoucí řádovou čárkou (floating point, FP). Zajímavé je, že sada pracovních registrů zůstává zachována, nenajdeme zde tedy striktní rozdělení na registry celočíselné a registry určené pro FP operace. Pokud se používá formát single/float (podle normy IEEE 754), je pro uložení operandu použit jeden registr, zatímco v případě formátu double je nutné použít dva sousední registry. I FP operace jsou rozděleny do jednotek; takže například instrukci FADDDP/FADDSP (součet pro typ double/single) je možné provést v jednotkách .Lx či .Sx zatímco instrukce FMPYDP (rychlé násobení dvou hodnot typu double) je určena pro jednotku .M1 či pro jednotku .M2.

15. Instrukční sada jader TMS320C66×

V instrukčním souboru nalezneme dva typy instrukcí: běžné instrukce o šířce 32 bitů a vybrané instrukce o šířce pouhých šestnácti bitů. Do druhé skupiny samozřejmě mohla být vybrána jen omezená sada instrukcí; konkrétně se jedná o instrukce typu Load & Store a dále základní instrukce pro aritmeticko-logické jednotky (ADD, SUB, ADDAW, SUBAW. Dále jsou instrukce rozděleny podle toho, pro kterou výkonnou (funkční) jednotku jsou určeny: .Lx, .Sx, .Dx či .Mx.

Instrukce pro jednotky .D:

Instrukce Instrukce ADD OR ADDAB STB ADDAD STB ADDAH STDW ADDAW STH ADD2 STH AND STNDW ANDN STNW LDB STW LDDW SUB LDH SUBAB LDH SUBAH LDNDW SUBAW LDNW SUB2 LDW XOR LDW ZERO MV MVK

Instrukce pro jednotky .L:

Instrukce Instrukce Instrukce Instrukce ABS DPACK2 NORM SPTRUNC ABS2 DPACKX2 NOT SSUB ADD DPINT OR SSUB2 ADDDP DPSP PACK2 SUB ADDSP DPTRUNC PACKH2 SUBABS4 ADDSUB INTDP PACKH4 SUBC ADDSUB2 INTDPU PACKHL2 SUBDP ADDU INTSP PACKLH2 SUBSP ADD2 INTSPU PACKL4 SUBU ADD4 LMBD SADD SUB2 AND MAX2 SADDSUB SUB4 ANDN MAXU4 SADDSUB2 SWAP2 CMPEQ MIN2 SAT SWAP4 CMPGT MINU4 SHFL3 UNPKHU4 CMPGTU MV SHLMB UNPKLU4 CMPLT MVK SHRMB XOR CMPLTU NEG SPINT ZERO

Instrukce pro jednotky .S:

Instrukce Instrukce Instrukce Instrukce ABSDP CMPEQ2 MVKH MVKLH SET ABSSP CMPEQ4 MVKL SHL ADD CMPEQDP MVKH MVKLH ADDDP CMPEQSP NEG SHR ADDK CMPGT2 NOT SHR2 ADDKPC CMPGTDP OR SHRMB ADDSP CMPGTSP PACK2 SHRU ADD2 CMPGTU4 PACKH2 SHRU2 AND CMPLT2 PACKHL2 SPACK2 ANDN CMPLTDP PACKLH2 SPACKU4 B CMPLTSP RCPDP SPDP CMPLTU4 RCPSP SSHL SUBDP DMPYU4 RPACK2 SUB RSQRDP B IRP NRP SHLMB BDEC EXTU RSQRSP SUBSP BNOP MAX2 SADD SUB2 MIN2 SADD2 SWAP2 ZERO BPOS MV SADDSU2 UNPKHU4 CALLP MVC SADDUS2 UNPKLU4 CLR MVK SADDU4 XOR

Instrukce pro jednotky .M:

Instrukce Instrukce Instrukce Instrukce AVG2 DOTPUS4 MPYIL MPY32 AVGU4 DOTPU4 MPYILR MPY32 BITC4 GMPY MPYLH MPY32SU BITR GMPY4 MPYLHU MPY32U CMPY MPY MPYLI MPY32US CMPYR MPYDP MPYLIR MVD CMPYR1 MPYH MPYLSHU ROTL DDOTP4 MPYHI MPYLUHS SHFL DDOTPH2 MPYHIR MPYSP SMPY DDOTPH2R MPYHL MPYSPDP SMPYH DDOTPL2 MPYHLU MPYSP2DP SMPYHL DDOTPL2R MPYHSLU MPYSU SMPYLH DEAL MPYHSU MPYSU4 DOTP2 MPYHU MPYU SMPY32 DOTPN2 MPYHULS MPYU4 SSHVL DOTPNRSU2 MPYHUS MPYUS SSHVR DOTPNRUS2 MPYI MPYUS4 XORMPY DOTPRSU2 MPYID MPY2 XPND2 DOTPRUS2 MPYIH MPY2IR XPND4 DOTPSU4 MPYIHR

16. Odkazy na Internetu