Pierwsze zdjęcie modułu AMD Steamroller

M E N U

» Nowości

» Archiwum

» Recenzje / Testy

» Board

» Rejestracja

Szukaj @ TwojePC

Środa 29 maja 2013

Pierwsze zdjęcie modułu AMD Steamroller Autor: Zbyszek \| 11:15	(29)
Firma AMD od kilkunastu miesięcy w pocie czoła pracuje nad swoją nową architekturą x86 o nazwie Steamroller, która znajdzie zastosowanie w przyszłych procesorach APU oraz CPU i ma wymazać plamę po niezbyt wydajnej architekturze Bulldozer. Steamroller będzie trzecią generacją architektury modułowej AMD, po wcześniejszych architekturach Bulldozer oraz Piledriver, i w odróżnieniu od których ma się wyróżniać wieloma zmianami technicznymi i znacznie wyższą wydajnością. W sieci właśnie pojawiło się zdjęcie (tzw. floorplan) przedstawiające budowę modułów Steamroller, które zdradza nieco informacji na ich temat. Podczas gdy Piledriver jest jedynie niewielkim ulepszeniem Bulldozera, w którym główny nacisk położono na zmniejszenie zużycia energii, Steamroller ma przynieść znaczny wzrost wydajności i wskaźnika IPC. Podczas sierpniowej konferencji Hot Chips poinformowano, że główne zmiany wprowadzone w modułach Steamroller obejmą zastosowanie dwóch oddzielnych 4-drożnych dekoderów instrukcji, po jednym dla każdego z rdzeni. Dzięki temu 8-rdzeniowy procesor złożony z czterech takich modułów będzie w stanie przetworzyć do 32 instrukcji na takt zegara - dwukrotnie więcej niż Bulldozer/Piledriver, i dokładnie tyle samo ile 8-rdzeniowy Sandy Bridge. Jednocześnie znacznie usprawnione mają być bloki stałoprzecinkowe, które powinny odznaczać się o 30% większą liczbą przetwarzanych instrukcji na takt, co ma przyczynić się do wyraźnej poprawy wydajności jednowątkowej. Kolejne zmiany obejmą zwiększenie skuteczności systemu predykcji skoków o 20%, ulepszenie schedulerów instrukcji stałoprzecinkowych ze zwiększeniem okna instrukcji o 25%, co ma skutkować poprawą wykorzystania jednostek wykonawczych, skrócenie czasu wykonywania wielu pojedynczych operacji, zwiększenie pojemności i efektywności pamięci podręcznych pierwszego poziomu oraz dodanie niewielkiej pamięci podręcznej dla już zdekodowanych instrukcji, podobnie jak w architekturach Sandy i Ivy Bridge. Dzięki zdjęciu możemy sprawdzić, jak zapowiadane zmiany zrealizowano w praktyce. Floorplan zdradza, że zachowano podobny układ elementów jak w dotychczasowych architekturach, jednak większość z nich rozbudowano i usprawniono. Pamięć podręczna pierwszego poziomu dla instrukcji została powiększona i przesunięta w górę, a w jej miejscu pojawił się dodatkowy 4-drożny dekoder. Oprócz tego łatwo zauważalne są powiększone bloki stałoprzecinkowe i pamięci podręczne dla danych, oraz aż dwie identyczne 256-bitowe jednostki zmiennoprzecinkowe, zamiast jednej współdzielonej pomiędzy obie części stałoprzecinkowe. Imponuje zwłaszcza rozmiar pamięci podręcznej pierwszego poziomu dla instrukcji, ponadto znacznie powiększono banki pamięci w jednostce predykcji skoków, odpowiadające za przechowywanie historii wykonywanych operacji. Szczegółowe porównanie budowy obu generacji architektur prezentujemy poniżej: Moduł Bulldozer (z lewej) i Steamroller, bez pamięci L2, skala zbliżona dla tego samego procesu litograficznego

K O M E N T A R Z E

No no... (autor: Krzem | data: 29/05/13 | godz.: 17:37)
Widzę materiał eksklusiv ;)
A co do tematu (autor: Krzem | data: 29/05/13 | godz.: 17:38)
Oby tym razem się udało...
tylko (autor: Markizy | data: 29/05/13 | godz.: 17:47)
żeby amd dobrze wykorzystało powierzchnie bo w górnej części procka trochę z tym słabo, przynajmniej według mojej oceny
nigdzie nie widzę info w jakim procesie ma być ten walec (autor: Sławekpl | data: 29/05/13 | godz.: 18:27)
robiony, 32? 28? a może nas zaskoczą...
przy takiej rozbudowie nawet dodanie dodatkowych stanów energetycznych może wywindować TDP do granicznych wartości (zakładam 32/28nm)
cos mi tu nie gra. (autor: piwo1 | data: 29/05/13 | godz.: 18:44)
cyt"Oprócz tego łatwo zauważalne są ... aż dwie identyczne jednostki zmiennoprzecinkowe, zamiast jednej współdzielonej pomiędzy obie części stałoprzecinkowe. "
przeciez buldozer tez mial dwie identyczne jednostki zmiennoprzecinkowe plus dwie mmx
http://pclab.pl/.../focus/vishera/piledriver_b.jpg
@ piwo1 (autor: Zbyszek.J | data: 29/05/13 | godz.: 18:53)
To popatrz na pierwsze foto i zauważysz, że są dwie zamiast jednej. BD miał jedną 256-bitową, składającą się z dwóch 128-bitowych jednostek FMAC i wydzielonych w nich dwóch potokach MMX, i to właśnie widać na jego diagramie.
2@. (autor: zgrzejan | data: 29/05/13 | godz.: 19:00)
Z wykresu juz wiadomo ze dopiero Excavator.Zreszta sami o tym mowia (AMD)
na ktore zdjecie mam patrzec? (autor: piwo1 | data: 29/05/13 | godz.: 19:00)
czyli w Steamrollerze beda dwie 256 bitowe jednostki, ktora kazda ma dwie 128 jednostki FMAC ?
jak dla mnie (autor: piwo1 | data: 29/05/13 | godz.: 19:15)
jednostek zmiennoprzecinkowy jest dokladnie tyle samo tylko dekoderow je obslugujacych jest dwa razy wiecej. nic wiecej. wiec stwierdzenie cyt"Oprócz tego łatwo zauważalne są ... aż dwie identyczne jednostki zmiennoprzecinkowe, zamiast jednej współdzielonej pomiędzy obie części stałoprzecinkowe. " jest niepoprawne.
Faktycznie (autor: Kenjiro | data: 29/05/13 | godz.: 19:41)
Wg prezentacji Steamroller ma tylko dwie jednostki FMAC i jedną MMX (2+1), a Piledriver miał 2+2. Plusem jest tylko podwójny dekoder rozkazów do FP, być może razem z lepszym mechanizmem kolejkowania, OoOE i predykcji da lepsze wyniki. Aczkolwiek rozwiązanie jest coraz bliższe dwóm niezależnym rdzeniom (dać podwójny scheduler FP i już).
@ piwo1 (autor: Zbyszek.J | data: 29/05/13 | godz.: 20:09)
na zdjęciu rdzenia widać jak na dłoni dwie samodzielne jednostki FPU, gdzie w Buldku widać taką jedną.

Jeśli nie wiesz jak to poznać, popatrz sobie w buldku na rejestry (kwadraty) umieszczone po prawej i lewej stronie w tej jednostce. To są rejestry każdej z dwóch 128-bitowych jednostek FMAC, które we dwójkę składają się na jeden blok FPU.

A teraz poszukaj ile ich jest w Steamrollerze (łatwo widać). A jak dalej nie widzisz, to jeśli chcesz zrobię Ci grafikę, w której to zaznaczę.
ok poprosze (autor: piwo1 | data: 29/05/13 | godz.: 20:23)
podeslij. szczerze to na tych zdjeciach niewiele widze. mozna zaznaczac kwadraciki jak sie chce i domowic do tego co sie chce.
i jeszcze (autor: Zbyszek.J | data: 29/05/13 | godz.: 20:25)
znajdź też banki pamięci umieszczone w "cache unit" bulldozera na prawo od jednostki FPU, a teraz zlokalizuj te same (a dokładnie to identyczne) w Steamrollerze, i zwróć uwagę, że są przed jedną jednostką FPU, a przed drugą, wyżej umieszczoną, już ich nie ma, bo właśnie ta druga jednostka FPU jest dodana.
ok widze (autor: piwo1 | data: 29/05/13 | godz.: 20:32)
o co ci chodzi
te dwa banki w prawym dolnym rogu (autor: piwo1 | data: 29/05/13 | godz.: 20:38)
to ta sama wielkosc w koparce i walcu? bo jak tak to praktycznie nie widac zmiany wymiaru z 32 na 28 a powierzchnia samego rdzenia (chodz pewnie w sumie nie az tak w calym procesorze znaczaca jak cache) duzo wieksza. zwlaszcza wlasnie rozrost fpu ogromny by oznaczalo chodz int tez spory.
@piwo1 (autor: trepcia | data: 29/05/13 | godz.: 22:20)
Zdjęcia są tak przeskalowane aby był jednakowe (czyt. rdzeń streamrollera nieco powiększono).
AMD ostatnio mocno "koloryzowało" (autor: Marcel | data: 29/05/13 | godz.: 22:46)
w zapowiedziach. Tu też podają spore wzrosty dlatego zamiast liczyć na mega wydajność czy też mieszać produkt z błotem po prostu zaczekam na premierę i oficjalne testy egzemplarzy z półek sklepowych. Nie ukrywam jednak że byłoby miło gdyby wrócili do gry no i nic tak nie poprawia cen jak realna konkurencja.
no gorzej to raczej nie bedzie :) (autor: Jarek84 | data: 30/05/13 | godz.: 02:15)
nie wymyslaja kola na nowo i tak na prawde bedzie to juz 3 rodzina procesorow modulowych - wystarczy poprawic waskie gardla w arch, o ktorych dobrze wiedza (i po wstepnych opisach zdaje sie poprawiaja) oraz popracowac na zmniejszeniem zapotrzebowania na W i bedzie dobrze.
Mogli by dac (autor: mbe | data: 30/05/13 | godz.: 09:53)
wspoldzielna pamięć L2 i zmniejszyć L3 żeby procek pobierał mniej papu. Na wspólnym. L3 zyskała by wydajność. pojedynczego wątku.
mbe (autor: Markizy | data: 30/05/13 | godz.: 10:15)
przecież l2 jest współdzielona z prockami w module. A żeby mieć takie rozwiązanie jak ty sugerujesz pamięć l2 naprawdę szybko by musiała dziać. A na chwile u obecną jest to jedno z wielu niedociągnięć proceosrów amd.
Wiem. (autor: mbe | data: 30/05/13 | godz.: 11:48)
I to AMD też musi usprawnić.
@mbe (autor: Promilus | data: 30/05/13 | godz.: 12:35)
Czy L3 w phenomie vs jego brak w Athlonach 2 dawało taką zarąbiście dużą różnicę TDP która usprawiedliwiałaby różnice w wydajności? Nie? To po jaką cholerę mieliby tak robić? Nawet Intel MA L3 i to duże, bo robienie dużego ultraszybkiego L2 do wymiany danych między WSZYSTKIMI rdzeniami jest zupełnie niepraktyczne.
@Markizy - kwestia L2 to nie tyle kwestia samej szybkości z jaką działa, a tego jakie ma opóźnienia. Zauważ, że przy częstotliwościach rzędu 4-5GHz jednak AMD musiało iść na drobne kompromisy, inna sprawa jak bardzo odbija się negatywnie te kilka cykli więcej na wydajności ogólnej procka. Tak - jest to coś do poprawy, ale trzeba sobie zdać sprawę co jest priorytetem. To jest jeden z lepszych przykładów gdzie ma zastosowanie pareto chart. Jeśli dajmy na to podwojenie dekoderów da 10% wydajności, podwojenie FPU kolejne 10% a zmniejszenie opóźniej L2 3%, z czego nakłady na każde z w/w są jednakowe to co jest sens poprawiać przy ograniczonych środkach?
Promilus (autor: Markizy | data: 30/05/13 | godz.: 15:29)
zgadza się pisząc o prędkości pamięci uogólniałem , bo najistotniejsze na chwile obecną do poprawy to czas dostępu i prędkość zapisu.

Co do samej ilości pytaniem jest czy różnica tutaj miedzy 1MB a 2MB daje dużo, bo jeśli nie to szkoda tracić na nią miejsce.
@22 (autor: mbe | data: 30/05/13 | godz.: 15:32)
AMD mogło by to zrobić na podobnej zasadzie jaka jest w jaguarze. Tam każdy rdzeń ma swoje L2 ale w momencie wykorzystania tylko części rdzeni niewykorzystywane L2 jest przydzielane obciążonym rdzeniom.
Hans de Vries - chip architect (autor: PCCPU | data: 30/05/13 | godz.: 15:36)
''This seems quite legit and
it's a big module indeed....
It seems many resources
are doubled:
Floating point: dual 256 bit
FMA instead of dual 128
bit FMA.
Integer: 8 ALU's and 8
AGU's instead of 4 both.
Dual 32kB data caches
instead of dual 16 kB.
Many other resources are
also doubled like rename
hardware and so on.
This is how I understand
this design (on inf64's
request):
The single Bulldozer
decoder somehow couldn't
handle 2 threads running
at 100% and for
benchmarks we see at most
a 50% performance increase
when the "second core"
becomes active. So it
doesn't work good enough
for CMT (but it's more than
OK for dual threaded SMT)
Now why not double up
the decoder and use the
capability to decode
2 threads for SMT instead?
The dual 6 cycle 256 bit
FMA FP units "cry out
loud" for more threads,
they will be idle and
unused otherwise for most
of the cycles since you
need 2x6=12 FP operations
to go on simultaneously to
fully utilize them.
Even with 4 threads that's
still 3 FP operations in
parallel per thread.
The old 128 bit FMA units
used the hardware more
efficiently with two
cycles used per AVX
operations but I guess one
needs full 256 bit AVX
units to score well at these
specially designed synthetic,
but otherwise
pretty useless, benchmarks.
A single "Integer core" now
has 4 ALU's and 4 AGU's
which can improve
the integer performance
somewhat, but not a lot.
Actually I hope they
can still function as dual 2
ALU/AGU integer execution
cores to support
4 threads in parallel. That
would really help
multithreaded
performance,
and a little bit of the CMT
ideas would survive.
Over time, in subsequent
versions, they can now
incrementally improve
single threaded
performance using 4 ALU
as much as possible. But
even
then. Integer performance
wasn't really Bulldozers
problem as can be
seen in the Boinc
Dhrystone benchmarks
which showed a similar
integer
IPC as the Athlon/Phenom
cores (as long as the
benchmark fits in L1D)
The L1D caches are
doubled to 32kB to
support 256 bit reads and
writes.
A single cache line of 512
bit can now be read and
written in a single
cycle freeing up cycles for
more program reads and
writes. The double
width also reduces bank
conflicts.
This strategy to improve
Bulldozer/Piledriver is
pretty much as I would
have done it. I hope it's
indeed AMD's way as well.
Hans.''
Steamroller? (autor: PCCPU | data: 30/05/13 | godz.: 15:49)
Dziwne jest to że ze slajdów AMD nie wynikało by Steamroller miał być tym czym jest na tym zdjęciu(głównie 2x FPU 256bit).
A może to nie jest Steamroller?
@24 (autor: Plackator | data: 30/05/13 | godz.: 16:32)
Czy steamroller nie miał mieć dynamicznie przydzielanej pamięci cache dla każdego z rdzeni ?
@Plackator (autor: PCCPU | data: 30/05/13 | godz.: 17:18)
Moduł Steamroller ma mieć L2 dzieloną na cztery strefy/części które mogą być wyłączane zależnie od jej obciążenia w celu oszczędzania energii.
@27 (autor: mbe | data: 30/05/13 | godz.: 20:53)
L2 w jest dzielone tylko w module (2mb na moduł).

W jaguarze masz 0,5mb na rdzeń który może być przypisany do innego rdzenia albo jak kto woli 2mb współdzielny między 4 rdzenie.

D O D A J K O M E N T A R Z

Aby dodawać komentarze, należy się wpierw zarejestrować, ewentualnie jeśli posiadasz już swoje konto, należy się zalogować.