A POWER8 alapú rendszerek az IBM-től 2014 júniusában kezdtek megjelenni.[3] Az IBM-es Ken King, az OpenPOWER Alliances általános igazgatója szerint más OpenPOWER tagok által gyártott rendszerek és POWER8 processzor-kialakítások 2015 elején fognak megjelenni,[4] de úgy néz ki, hogy a TYAN cég ennél korábban, már 2014 októberében kész ilyen rendszereket szállítani.[5]
Felépítés
A POWER8-at egy igen nagymértékben sokszálas végrehajtású csipnek tervezték: a benne lévő minden egyes mag nyolc hardveres szálat képes egyidejűleg kezelni, így egy 12 magos csip összesen 96 szálat képes egyidejűleg végrehajtani. A processzor erőteljesen kihasználja a nagyon nagy méretű csipre épített és csipen kívüli eDRAM gyorsítótárakat, és a lapkára integrált memóriavezérlők igen magas sávszélességét a memória és a rendszer be-/kimeneti funkciói számára. A legtöbb munkafeladat végrehajtásában a csip kétszer-háromszor olyan gyors, mint elődje, a POWER7.[6]
Míg a megelőző POWER processzoroknál a GX++ sín szolgált a külső kommunikációra, a POWER8-nál ezt a sínt kivették a tervekből és funkcióját a CAPI porttal (Coherent Accelerator Processor Interface) váltották fel, ami a PCI Express 3.0 fölötti kommunikációs réteg. A CAPI port specializált kisegítő processzorok kapcsolására használatos, mint például a GPU-k, ASIC-ek és FPGA-k.[7][8]
A CAPI sínhez kapcsolt egységek ugyanazt a memória-címterületet tudják használni, mint a CPU, ezáltal csökkenhet a számítási úthossz. A 2013. évi ACM/IEEE Szuperszámítógépes Konferencián(ACM/IEEE Supercomputing Conference) az IBM és Nvidia bejelentett egy műszaki együttműködést, amely a POWER8 és az Nvidia GPU-k szoros összepárosítását célozza a jövőbeli HPC rendszerekben,[9] amelyek közül az első bejelentett modell a Power Systems S824L.[10]
A POWER8 tartalmaz egy úgynevezett lapkára integrált vezérlőt (OCC) is, ami egy egy PowerPC 405 processzoron alapuló teljesítmény- és hőmérséklet-szabályozó mikrovezérlő. Ennek van két általános célú „feladatátvevő egysége” (offload engine, GPE, kisebb feladatokat végrehajtó tehermentesító-gyorsító egység) és 512 KiB beágyazott statikus RAM-ja, amely azzal együtt, hogy közvetlenül eléri a főmemóriát, képes egy nyílt forráskódú firmware futtatására is. Az OCC igazgatja a POWER8 működési frekvenciáját, feszültségét, memória sávszélesség, és hőmérséklet-vezérlését a processzor és memória számára egyaránt; működés közben képes szabályozni a feszültségeket 1764 integrált feszültségszabályozón (IVR) keresztül. Továbbá, az OCC programozható a POWER8 processzor órajelének túlhajtására(overclock), vagy az energiafelhasználás csökkentésére az üzemfrekvencia csökkentésével (ez hasonlít a néhány Intel és AMD processzorban található konfigurálható TDP-re).[11][12][13][14]
A POWER8 4-, 6-, 8-, 10- és 12 magos változatokban jelenik meg;[15][16] mindegyik változatot 22 nm-es szilícium szigetelőn (silicon on insulator, SOI) típusú, 15 fémrétegű folyamattal gyártják. A 12 magos verzió 4,2 milliárd tranzisztorból áll[17] és 650 mm² felületű (kb. 25,5×25,5 mm), míg a 6 magos verzió felülete csak 362 mm².[3]
Centaur
A POWER8 csipek memóriavezérlői DDR3 vagy DDR4 memóriákat is használhatnak, de érdekes módon jövő-állónak tervezték őket, mivel ezek olyan általános (nem specifikus) memóriavezérlők, amelyek egy Centaur-nak elnevezett külső komponenssel párosíthatóak, ami memóriapuffer, L4 gyorsítótár-csip és tényleges memóriavezérlő egyben. A jelenlegi Centaur csip még DDR3 memóriát használ, de egy jövőbeli verzió már DDR4-et használhat vagy valamilyen más memória-technológiát, anélkül, hogy ehhez a POWER8 csipet meg kéne változtatni.
A POWER8 csip és a Centaur közötti összeköttetések mindegyike 9,6 GiB/s sebességű, 40 ns késleltetéssel. A Centaur 16 MiB eDRAM-ot tartalmaz, amit a processzor L4 gyorsítótárként használhat. Minden POWER8 max. nyolc Centaur csiphez kapcsolódhat, ami legfeljebb 1 TiB memóriát jelenthet foglalatonként, az aggregált 128 MiB L4 gyorsítótárakkal, ekkor az elérhető folyamatosan fenntartható memória sávszélesség 230 GiB/s, mind a processzor felé bemenő, mind a kimenő irányba, összesen 32 DRAM porttal és 410 GiB/s csúcs memória-sávszélességgel a DRAM-on. A Centaur csipek DRAM DIMM modulokba vannak szerelve.[1][18][19]
A Centaur csipeket egy a POWER8-éhoz hasonló folyamattal gyártják.
Specifikációk
A POWER8 magnak 64 KiB L1 adat- és 32 KiB L1 utasítás-gyorsítótára van. Mindegyik mag 10 utasítás kibocsátására képes
és minden ciklusban 8 utasítást továbbít a 16 végrehajtó egységnek (Execution Unit, EU), amik a következők:
2 fixpontos egység (Fixed-Point Unit, FXU), 2 betöltő-tároló egység (Load-Store Unit, LSU),
2 utasítás-lehívó egység (Instruction Fetch Unit, IFU), 4 lebegőpontos egység (Floating Point Unit, FPU),
2 VMX egység, 1 kriptográfiai egység, 1 decimális lebegőpontos egység (DFU),
1 feltételregiszter-egység (Condition Register Unit, CRU) és 1 elágazási regiszter egység (Branch Register Unit, BRU).[18]
A magnak van egy nagyobb, 4×16 elemű kibocsátási sora, javított elágazás-előrejelzői és kétszer annyi találati hibát képes kezelni (mint elődje).
Mindegyik mag nyolcutas, hardveresen többszálú, dinamikusan és automatikusan particionálható egy, két, négy vagy mind a nyolc szál aktív használatára.[1]
A POWER8-at kiegészítették a tranzakciós memória hardveres támogatására szolgáló eszközökkel.[20][21][22]
Az IBM becslései szerint minden egyes mag 1,6-szor gyorsabb a POWER7-nél az egyszálas műveletekben.
A POWER8 processzorban a magok ún. minicsipek (chiplet az IBM kifejezésével) formájában helyezkednek el a teljes csipen. A minicsipek ezen felül 4 szabályozási doménre oszlanak.
A processzor 4, 6, 8, 10 vagy 12 minicsipes kialakítás lehet, a változatok igényei szerint,
ezekben egy minicsip egy magot, 512 KiB SRAM-mal kialakított második szintű gyorsítótárat tartalmaz egy 64 bájt
széles (az elődjében lévőnél kétszer szélesebb[1]) sínen, ezen felül még egy 8 MiB eDRAM-os kialakítású L3 gyorsítótárat, amelyet a minicsipek megosztva használhatnak.[15]
Így például egy hat minicsipes processzornak 48 MiB L3 eDRAM-os gyorsítótára, egy 12 minicsipes processzornak
összesen 96 MiB L3 eDRAM-os gyorsítótára lehet. A csip ki tud használni még egy max. 128 MiB méretű csipen kívüli eDRAM L4 gyorsítótárat a Centaur kísérő csipek segítségével.
A lapkára integrált memóriavezérlők 1 TiB RAM-ot képesek kezelni és 230 GiB/s folyamatos memória sávszélességet tartanak fenn.
A kártyára szerelt PCI Express vezérlők 48 GiB/s be-/kimeneti sebességet biztosítanak a rendszer más részeihez.
A magokat 2,5 és 5 GHz közötti órajelfrekvencia használatára tervezték.[14]
A 6 magos verzióban a magok párosan helyezkednek el és kétcsipes modulokban (DCM) kerülnek az IBM Power Systems méretezhető (scale-out) szervereibe.
A konfigurációk nagy részében nem minden mag aktív, ezáltal a cég konfigurációk széles választékát kínálhatja, amelyekben a tényleges magok száma eltérő.
2014 májusáig a 12 magos változat egyik konfigurációban sem jelent meg.
Az IBM egycsipes POWER8 moduljának a neve Turismo,[5] a kétcsipes változat neve Murano.[23]
A PowerCore átalakított verziójának jelölése egyszerűen CP1.
Licencelők
2014. január 19-én a Suzhou PowerCore Technology Company bejelentette, hogy csatlakoznak az OpenPOWER Alapítványhoz
és licencelik a POWER8 magot, egyedi gyártású processzorok tervezéséhez, big data és felhő alapú számítástechnikai alkalmazásokban történő felhasználásra.[24][25]
Változatok
IBM Murano: 12 magos processzor, két hat magos csippel. Skálázható processzor, amit változó számú mag kikapcsolásával érnek el, sok konfigurációban.
IBM Turismo: egycsipes 12 magos processzor. Skálázható processzor, licencelhető és kereskedelmi forgalomban kapható, kikapcsolt magokkal kialakított konfigurációkban.
PowerCore CP1: átdolgozott biztonsági jellemzőkkel kialakított POWER8 változat; erre az USA és Kína közötti exportkorlátozási szabályok miatt volt szükség; a Global Foundries (korábban IBM gyártóüzem) East Fishkill-i gyárában fogják gyártani. Kibocsátását 2015-ben tervezik.[26][27]
Rendszerek
IBM
Skálázható szerverek: egy vagy két foglalattal, mindegyikben egy kétcsipes modul lehet, amelyek két hatmagos POWER8 processzort tartalmaznak. Ezek 2U vagy 4U méretű modulokban és torony konfigurációban kaphatók. Az „L” változatok csak Linux-ot, a többi IBM AIX, IBM i és Linux operációs rendszereket futtathat.[28][29][30]
Power Systems S812L: 1× POWER8 DCM (4, 6 vagy 8 mag), 2U
Power Systems S822 and S822L: 1× vagy 2× POWER8 DCM (6, 10, 12 vagy 20 mag), 2U
Power Systems S814: 1× POWER8 DCM (6 vagy 8 mag), 4U vagy torony
Power Systems S824 and S824L: 1× vagy 2× POWER8 DCM (6, 8, 12, 16 vagy 24 mag), 4U
Enterprise szerverek: négy foglalatos node-okat támogatnak, mindegyik egy 8-, 10 vagy 12 magos modult hordozhatnak; maximum 16 foglalat, 128 mag és 16 TiB RAM. Ezek a gépek IBM AIX, IBM i, vagy Linux operációs rendszert futtathatnak.[31]
Power Systems E850: 2×, 3× vagy 4× POWER8 DCM (8, 10 vagy 12 mag), 4U
Power Systems E870: 1× vagy 2× 5U node-ok, mindegyik négy foglalattal, 8- vagy 10 magos POWER8 egycsipes modulok, összesen max. 80 mag.
Power Systems E880: 1x, 2x, 3x vagy 4x 5U node-ok, mindegyik négy foglalattal, 8- vagy 12 magos POWER8 egycsipes modulok, összesen max. 192 mag.
↑Todd Rosedahl: OCC Firmware Code is Now Open Source. openpowerfoundation.org , 2014. december 20. [2014. december 27-i dátummal az eredetiből archiválva]. (Hozzáférés: 2014. december 27.)
↑ abJeff Stuecheli: An introduction to POWER8 processor (PDF) pp. 15–17. IBM Corporation, 2013. október 18. [2014. május 2-i dátummal az eredetiből archiválva]. (Hozzáférés: 2014. május 1.)
↑Harold W. Cain, Maged M. Michael, Brad Frey, Cathy May, Derek Williams, and Hung Le. "Robust Architectural Support for Transactional Memory in the Power Architecture." In ISCA '13 Proceedings of the 40th Annual International Symposium on Computer Architecture, pp. 225-236, ACM, 2013. doi:10.1145/2485922.2485942
Ez a szócikk részben vagy egészben a POWER8 című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.