Válassza az Oldal lehetőséget

Kipróbáltuk a Bulldozert: FX-8150 és három 990FX-es alaplap a tesztpadon

Kipróbáltuk a Bulldozert: FX-8150 és három 990FX-es alaplap a tesztpadon

Technológia

A lapkák a GlobalFoundries 32 nm-es SHP node-ján készülnek. A Bulldozereknél a korábban bemutatott SOI-t ötvözték az Intel által használt HKMG-vel (High-K Metal Gate), amely a szivárgási áram leküzdésében segíthet. Az architektúrát a magas órajelek eléréséhez megfelelően alakították ki („Speed racer”), ennek köszönhetően a modellpaletta valószínűleg teljesen nélkülözni fogja a 3 GHz alatti termékeket. Az összes központi egység a régi nyelven szólva Black Edition, ebből kifolyólag ez most nincs külön megjelölve.

Ezen a ponton tegyünk egy kis kitérőt és vizsgáljuk meg az érem másik oldalát is. A leggyorsabb négymagos Phenom II processzor 3,7 GHz-en, a hatmagos Thuban lapkára épülő 1100T pedig 3,3 GHz-en ketyeg. Ehhez képest a 32nm-es AMD FX-8150 alapórajele szinte kiábrándítóan alacsony és csak a Turbo Core 4,2 GHz-es „szintje fogadható” el, amely rögtön 10-15%-ös teljesítménytöbblettel kecsegtet(ne). Az XbitLabs már egy évvel ezelőtt megszellőztette, hogy a Bulldozer átlépi a 3,5 GHz-es órajelet, ami ugyan összejött, de a sorozatos csúszások ellenére is csak épphogy. Helytállónak tűnik az a feltételezés, miszerint az új nagyágyú gyártásával, kihozatalával még mindig komoly problémák vannak, ez pedig számottevően kihat a teljesítményre is.

amd_bulldozer_hatekonysag
A második integer csak 12 százalékkal növeli a modul méretét. [+]

Hosszú évek tapasztalata alapján megszületett még egy alapkoncepció is, ami a következőkön alapult: a központi egységek átlagosan 80 százalék feletti arányban végeznek fixpontos műveleteket. Ebből látható, hogy a lebegőpontosok számítások sokkal kisebb mértékben vannak jelen a „százlábúak” életében. A tervezésnél következésképpen összekapcsoltak két integer magot, amelyek rendelkeznek saját elsőszintű gyorsítótárral, de a másodszintű átmeneti tárolón és a lebegőpontos egységen már osztozniuk kell. Az AMD az így kialakított egységet modulnak nevezte el.

amd_bulldozer_egy_modul
Egy modul [+]

A belső mérések szerint a második integer alapjaiban véve elenyésző mértékben növeli a modul méretét, ezzel szemben – ideális esetben – akár 80 %-os teljesítménynövekedést is okozhat. A feldolgozókhoz közvetlenül csatlakozik az elsődleges gyorsítótár adatokért felelős része, (mérete 16 Kbyte, késleltetése 4 órajel), viszont az instrukciók tárolására kialakított 64 Kbyte-os gyorsítótár már osztott az integerek között.

1_modul_meg_melyebben
Mélyebbre ásva [+]

A teszteredmények alapján az L1 adatcache nem csak túl kicsi, de még lassú is és ez így együtt nem túl jó kombináció. A modulon belül megosztott másodszintű tároló mérete kielégítő, azonban a késleltetése magas, 25-27 ciklus. Könnyen elképzelhető, hogy egy nagyobb mérető L1 cache és egy gyorsabb L2 (12-15 ciklus) révén a processzor teljesítménye 10-20%-al javulna.

Nem túl meglepő módon a 8 MB-os L3 elérése sem fénysebességű (65 ciklus). Összefoglalva elmondhatjuk, hogy a Bulldozer cache-rendszere nem lesz a világ nyolcadik csodája.

utasitasok
Az utasításkészletek útvesztőjében [+]

A Bulldozer jelenleg a legszélesebb körű utasításkészlet támogatással rendelkezik: MMX, SSE, SSE2, SSE3, SSE4A, SSSE3, SSE4.1, SSE4.2, AVX, AES, FMA4, XOP, PCLMULQDQ és természetesen a 64 bites kiterjesztés. A két újdonságról (FMA4, XOP) elmondható, hogy az FMA4 a HPC-piacon bír nagy jelentőséggel, a XOP pedig multimédiás alkalmazások alatt nyújt egy kis előnyt. Értesüléseink szerint az x264 legfrissebb verziója már támogatja az új utasításkészleteteket. Az elavultnak mondható 3DNow! támogatását megszüntették, gondolom ez nem sok olvasóknak okoz álmatlan éjszakákat.

Köztudott, hogy az x86 virtuális memória elérésére az Intel VT-d használja. Az IOMMU jelentősen megnöveli a rendszer virtualizációs teljesítményét, azonban meglepő módon az Intel felsőkategóriás megoldásai (Core i5-2600K, i7-2600K) nem támogatják ezt a technológiát és ebbe a „fekete körbe” az aktuális Sandy Bridge E megoldások is beletartoznak. Ismét egy extra szolgáltatás a közvetlen konkurenciához képest, bár a hasznossága egy átlag felhasználó számára megkérdőjelezhető.

40
A Turbo Core az elméletben [+]

A Turbo Core is továbbfejlődött, több órajelkapuval dolgozik, és még jobban igazodik a különböző mértékű kihasználtsághoz. Ha az összes mag aktív, de a lebegőpontos egységek éppen nincsenek használatban, akkor érvénybe lép a Turbo Core 2.0-s órajel. Az eljárás a terhelés függvényében dinamikusan változtatja a magok órajeleit, az inaktív erőforrások, modulok és a modulon belüli részegységek lekapcsolhatóak, tehát ezen a téren nem érthetné panasz a ház elejét. A dolog szoftveres oldala sajnos alaposan belerondít a levesbe.

a_gyakorlatban
A gyakorlati megvalósítás [+]

A Windows 7 ütemezője enyhén szólva nem a leghatékonyabb módon végzi a feladatok kiosztását, mert sűrűn váltogatja a feladatok kiosztását a magok között. Az operációs rendszer következő verziója már javítja a problémát és hamarosan elkészül a javítás ehhez a rendszerhez is, így – a kirívó esetekben 15-25 százalék is előfordulhat – hamarosan 2-10%-kal nagyobb teljesítményt kapunk. További roppant kellemes hozadék lesz, hogy az üresjárati fogyasztás 4-5 wattal is csökkenhet, mert a modulok tovább maradhatnak „takarékon”.

bulldozerwin8_and_bf3
“Ajándék teljesítménynek ne nézd a fogát” [+]

bulldozerbf3betafx

Az “átváltozás” a Battlefield 3 alatt [+]

Jól mutatja a Battlefield 3 is, hogy némi optimalizáció mennyit segít egy processzor esetében. Ebben a játékban a jelenleg legerősebb FX sorozatú processzor képes elérni a Core i7-2600k teljesítményét.

Az FX sorozatú processzorok Socket AM3+-os tokozással érkeznek és az AMD 9-es sorozatú lapkakészlettel ellátott alaplapjaiban foglalnak helyet. A tájékozódást megkönnyíti a foglalat színe is, ami többnyire fekete. A végtelenül hangzatos a Scorpius platform megvalósításához FX sorozatú processzorra, 9-es sorozatú lapkakészlettel ellátott alaplapra, valamint Radeon HD 6000-es sorozatú videokártyára van szükségünk. A Bulldozer 1866 MHz-es modulokat támogató, kétcsatornás DDR3 memóriavezérlővel rendelkezik.

phenommal_folulk

AMD FX-8150 egy Phenom II X4 970 BE társaságában – felülről [+]

Zárásképpen még egy érdekes adalékkal szolgálnánk. Komoly vitákat gerjesztett az a tény, hogy a Bulldozer alapú processzorok által órajelenként elvégzett munka (instructions per cycle) átlagosan valamelyest csökkent az elődjéhez képest. Egyesek rögtön az architektúra bukását vizionálják, mások hasonló, múltbeli példákat sorolnak. Ezzel kapcsolatosan – mint mindig – szorítkozzunk a tényekre. A programozók manapság már egyre inkább felfigyelnek a többmagos optimalizálás előnyeire. Egy alapjaiban jó teljesítményt nyújtó 8 hengeres motor esetében ritkán jut eszünkbe, hogy vajon 1 henger mellett mire képes.

phenommalalulk

AMD FX-8150 egy Phenom II X4 970 BE társaságában – alulról [+]

A példa nem a legjobb, de talán rávilágít a lényegre. Nem állítjuk, hogy nyolc integer magot sűrűn fogunk optimálisan kihasználni, azonban a Turbo Core 2.0 ilyenkor a lehető legmagasabb órajelet (4,2 GHz) célozza meg. Ami a K10.5 esetében már csak „véres veríték” árán érhető el, az itt „alapórajelnek” számít. Kétségtelen az is, hogy jelentős tranzisztorkészletbe került az AVX, FMA és a XOP implementálása. Az architektúra alapjait több szegmensben (szerver, asztali PC) is felhasználják, így ez kötelező lépésnek tűnt, viszont manapság még kevésbé látjuk ennek előnyeit (főleg asztali környezetben).

foglalat_2k

Ágyában feküdve [+]

Ideális esetben (FMA4+AVX) tényleg nagyon elemében érzi magát a Bulldozer, meglepő teljesítményt nyújt és rögtön más megvilágításba helyezi a dolgokat. A német HT4U mérései szerint a C-Ray 1.1 renderelő alkalmazás alatt az AMD FX-8150 ugyanúgy 15 másodperc alatt végez, mint az Intel Core i7 990X. Ez pontosan feleannyi idő, mint amennyire egy AMD Phenom II X6 1100T processzornak szüksége volt a feladat elvégzéséhez. Azt zárójelbe megjegyeznénk, hogy mi lemértük a másik végletet, a Super PI-t is.