Twoje PC  
Zarejestruj się na Twoje PC
TwojePC.pl | PC | Komputery, nowe technologie, recenzje, testy
M E N U
  0
 » Nowości
0
 » Archiwum
0
 » Recenzje / Testy
0
 » Board
0
 » Rejestracja
0
0
 
Szukaj @ TwojePC
 

w Newsach i na Boardzie
 
TwojePC.pl © 2001 - 2024
Środa 29 maja 2013 
    

Pierwsze zdjęcie modułu AMD Steamroller


Autor: Zbyszek | 11:15
(29)
Firma AMD od kilkunastu miesięcy w pocie czoła pracuje nad swoją nową architekturą x86 o nazwie Steamroller, która znajdzie zastosowanie w przyszłych procesorach APU oraz CPU i ma wymazać plamę po niezbyt wydajnej architekturze Bulldozer. Steamroller będzie trzecią generacją architektury modułowej AMD, po wcześniejszych architekturach Bulldozer oraz Piledriver, i w odróżnieniu od których ma się wyróżniać wieloma zmianami technicznymi i znacznie wyższą wydajnością. W sieci właśnie pojawiło się zdjęcie (tzw. floorplan) przedstawiające budowę modułów Steamroller, które zdradza nieco informacji na ich temat.

Podczas gdy Piledriver jest jedynie niewielkim ulepszeniem Bulldozera, w którym główny nacisk położono na zmniejszenie zużycia energii, Steamroller ma przynieść znaczny wzrost wydajności i wskaźnika IPC. Podczas sierpniowej konferencji Hot Chips poinformowano, że główne zmiany wprowadzone w modułach Steamroller obejmą zastosowanie dwóch oddzielnych 4-drożnych dekoderów instrukcji, po jednym dla każdego z rdzeni. Dzięki temu 8-rdzeniowy procesor złożony z czterech takich modułów będzie w stanie przetworzyć do 32 instrukcji na takt zegara - dwukrotnie więcej niż Bulldozer/Piledriver, i dokładnie tyle samo ile 8-rdzeniowy Sandy Bridge.

Jednocześnie znacznie usprawnione mają być bloki stałoprzecinkowe, które powinny odznaczać się o 30% większą liczbą przetwarzanych instrukcji na takt, co ma przyczynić się do wyraźnej poprawy wydajności jednowątkowej. Kolejne zmiany obejmą zwiększenie skuteczności systemu predykcji skoków o 20%, ulepszenie schedulerów instrukcji stałoprzecinkowych ze zwiększeniem okna instrukcji o 25%, co ma skutkować poprawą wykorzystania jednostek wykonawczych, skrócenie czasu wykonywania wielu pojedynczych operacji, zwiększenie pojemności i efektywności pamięci podręcznych pierwszego poziomu oraz dodanie niewielkiej pamięci podręcznej dla już zdekodowanych instrukcji, podobnie jak w architekturach Sandy i Ivy Bridge.

Dzięki zdjęciu możemy sprawdzić, jak zapowiadane zmiany zrealizowano w praktyce. Floorplan zdradza, że zachowano podobny układ elementów jak w dotychczasowych architekturach, jednak większość z nich rozbudowano i usprawniono. Pamięć podręczna pierwszego poziomu dla instrukcji została powiększona i przesunięta w górę, a w jej miejscu pojawił się dodatkowy 4-drożny dekoder. Oprócz tego łatwo zauważalne są powiększone bloki stałoprzecinkowe i pamięci podręczne dla danych, oraz aż dwie identyczne 256-bitowe jednostki zmiennoprzecinkowe, zamiast jednej współdzielonej pomiędzy obie części stałoprzecinkowe. Imponuje zwłaszcza rozmiar pamięci podręcznej pierwszego poziomu dla instrukcji, ponadto znacznie powiększono banki pamięci w jednostce predykcji skoków, odpowiadające za przechowywanie historii wykonywanych operacji. Szczegółowe porównanie budowy obu generacji architektur prezentujemy poniżej:

Moduł Bulldozer (z lewej) i Steamroller, bez pamięci L2, skala zbliżona dla tego samego procesu litograficznego


 
    
K O M E N T A R Z E
    

  1. No no... (autor: Krzem | data: 29/05/13 | godz.: 17:37)
    Widzę materiał eksklusiv ;)

  2. A co do tematu (autor: Krzem | data: 29/05/13 | godz.: 17:38)
    Oby tym razem się udało...

  3. tylko (autor: Markizy | data: 29/05/13 | godz.: 17:47)
    żeby amd dobrze wykorzystało powierzchnie bo w górnej części procka trochę z tym słabo, przynajmniej według mojej oceny

  4. nigdzie nie widzę info w jakim procesie ma być ten walec (autor: Sławekpl | data: 29/05/13 | godz.: 18:27)
    robiony, 32? 28? a może nas zaskoczą...
    przy takiej rozbudowie nawet dodanie dodatkowych stanów energetycznych może wywindować TDP do granicznych wartości (zakładam 32/28nm)


  5. cos mi tu nie gra. (autor: piwo1 | data: 29/05/13 | godz.: 18:44)
    cyt"Oprócz tego łatwo zauważalne są ... aż dwie identyczne jednostki zmiennoprzecinkowe, zamiast jednej współdzielonej pomiędzy obie części stałoprzecinkowe. "
    przeciez buldozer tez mial dwie identyczne jednostki zmiennoprzecinkowe plus dwie mmx
    http://pclab.pl/.../focus/vishera/piledriver_b.jpg


  6. @ piwo1 (autor: Zbyszek.J | data: 29/05/13 | godz.: 18:53)
    To popatrz na pierwsze foto i zauważysz, że są dwie zamiast jednej. BD miał jedną 256-bitową, składającą się z dwóch 128-bitowych jednostek FMAC i wydzielonych w nich dwóch potokach MMX, i to właśnie widać na jego diagramie.

  7. 2@. (autor: zgrzejan | data: 29/05/13 | godz.: 19:00)
    Z wykresu juz wiadomo ze dopiero Excavator.Zreszta sami o tym mowia (AMD)

  8. na ktore zdjecie mam patrzec? (autor: piwo1 | data: 29/05/13 | godz.: 19:00)
    czyli w Steamrollerze beda dwie 256 bitowe jednostki, ktora kazda ma dwie 128 jednostki FMAC ?

  9. jak dla mnie (autor: piwo1 | data: 29/05/13 | godz.: 19:15)
    jednostek zmiennoprzecinkowy jest dokladnie tyle samo tylko dekoderow je obslugujacych jest dwa razy wiecej. nic wiecej. wiec stwierdzenie cyt"Oprócz tego łatwo zauważalne są ... aż dwie identyczne jednostki zmiennoprzecinkowe, zamiast jednej współdzielonej pomiędzy obie części stałoprzecinkowe. " jest niepoprawne.

  10. Faktycznie (autor: Kenjiro | data: 29/05/13 | godz.: 19:41)
    Wg prezentacji Steamroller ma tylko dwie jednostki FMAC i jedną MMX (2+1), a Piledriver miał 2+2. Plusem jest tylko podwójny dekoder rozkazów do FP, być może razem z lepszym mechanizmem kolejkowania, OoOE i predykcji da lepsze wyniki. Aczkolwiek rozwiązanie jest coraz bliższe dwóm niezależnym rdzeniom (dać podwójny scheduler FP i już).

  11. @ piwo1 (autor: Zbyszek.J | data: 29/05/13 | godz.: 20:09)
    na zdjęciu rdzenia widać jak na dłoni dwie samodzielne jednostki FPU, gdzie w Buldku widać taką jedną.

    Jeśli nie wiesz jak to poznać, popatrz sobie w buldku na rejestry (kwadraty) umieszczone po prawej i lewej stronie w tej jednostce. To są rejestry każdej z dwóch 128-bitowych jednostek FMAC, które we dwójkę składają się na jeden blok FPU.

    A teraz poszukaj ile ich jest w Steamrollerze (łatwo widać). A jak dalej nie widzisz, to jeśli chcesz zrobię Ci grafikę, w której to zaznaczę.


  12. ok poprosze (autor: piwo1 | data: 29/05/13 | godz.: 20:23)
    podeslij. szczerze to na tych zdjeciach niewiele widze. mozna zaznaczac kwadraciki jak sie chce i domowic do tego co sie chce.

  13. i jeszcze (autor: Zbyszek.J | data: 29/05/13 | godz.: 20:25)
    znajdź też banki pamięci umieszczone w "cache unit" bulldozera na prawo od jednostki FPU, a teraz zlokalizuj te same (a dokładnie to identyczne) w Steamrollerze, i zwróć uwagę, że są przed jedną jednostką FPU, a przed drugą, wyżej umieszczoną, już ich nie ma, bo właśnie ta druga jednostka FPU jest dodana.

  14. ok widze (autor: piwo1 | data: 29/05/13 | godz.: 20:32)
    o co ci chodzi

  15. te dwa banki w prawym dolnym rogu (autor: piwo1 | data: 29/05/13 | godz.: 20:38)
    to ta sama wielkosc w koparce i walcu? bo jak tak to praktycznie nie widac zmiany wymiaru z 32 na 28 a powierzchnia samego rdzenia (chodz pewnie w sumie nie az tak w calym procesorze znaczaca jak cache) duzo wieksza. zwlaszcza wlasnie rozrost fpu ogromny by oznaczalo chodz int tez spory.

  16. @piwo1 (autor: trepcia | data: 29/05/13 | godz.: 22:20)
    Zdjęcia są tak przeskalowane aby był jednakowe (czyt. rdzeń streamrollera nieco powiększono).

  17. AMD ostatnio mocno "koloryzowało" (autor: Marcel | data: 29/05/13 | godz.: 22:46)
    w zapowiedziach. Tu też podają spore wzrosty dlatego zamiast liczyć na mega wydajność czy też mieszać produkt z błotem po prostu zaczekam na premierę i oficjalne testy egzemplarzy z półek sklepowych. Nie ukrywam jednak że byłoby miło gdyby wrócili do gry no i nic tak nie poprawia cen jak realna konkurencja.

  18. no gorzej to raczej nie bedzie :) (autor: Jarek84 | data: 30/05/13 | godz.: 02:15)
    nie wymyslaja kola na nowo i tak na prawde bedzie to juz 3 rodzina procesorow modulowych - wystarczy poprawic waskie gardla w arch, o ktorych dobrze wiedza (i po wstepnych opisach zdaje sie poprawiaja) oraz popracowac na zmniejszeniem zapotrzebowania na W i bedzie dobrze.

  19. Mogli by dac (autor: mbe | data: 30/05/13 | godz.: 09:53)
    wspoldzielna pamięć L2 i zmniejszyć L3 żeby procek pobierał mniej papu. Na wspólnym. L3 zyskała by wydajność. pojedynczego wątku.

  20. mbe (autor: Markizy | data: 30/05/13 | godz.: 10:15)
    przecież l2 jest współdzielona z prockami w module. A żeby mieć takie rozwiązanie jak ty sugerujesz pamięć l2 naprawdę szybko by musiała dziać. A na chwile u obecną jest to jedno z wielu niedociągnięć proceosrów amd.

  21. Wiem. (autor: mbe | data: 30/05/13 | godz.: 11:48)
    I to AMD też musi usprawnić.

  22. @mbe (autor: Promilus | data: 30/05/13 | godz.: 12:35)
    Czy L3 w phenomie vs jego brak w Athlonach 2 dawało taką zarąbiście dużą różnicę TDP która usprawiedliwiałaby różnice w wydajności? Nie? To po jaką cholerę mieliby tak robić? Nawet Intel MA L3 i to duże, bo robienie dużego ultraszybkiego L2 do wymiany danych między WSZYSTKIMI rdzeniami jest zupełnie niepraktyczne.
    @Markizy - kwestia L2 to nie tyle kwestia samej szybkości z jaką działa, a tego jakie ma opóźnienia. Zauważ, że przy częstotliwościach rzędu 4-5GHz jednak AMD musiało iść na drobne kompromisy, inna sprawa jak bardzo odbija się negatywnie te kilka cykli więcej na wydajności ogólnej procka. Tak - jest to coś do poprawy, ale trzeba sobie zdać sprawę co jest priorytetem. To jest jeden z lepszych przykładów gdzie ma zastosowanie pareto chart. Jeśli dajmy na to podwojenie dekoderów da 10% wydajności, podwojenie FPU kolejne 10% a zmniejszenie opóźniej L2 3%, z czego nakłady na każde z w/w są jednakowe to co jest sens poprawiać przy ograniczonych środkach?


  23. Promilus (autor: Markizy | data: 30/05/13 | godz.: 15:29)
    zgadza się pisząc o prędkości pamięci uogólniałem , bo najistotniejsze na chwile obecną do poprawy to czas dostępu i prędkość zapisu.

    Co do samej ilości pytaniem jest czy różnica tutaj miedzy 1MB a 2MB daje dużo, bo jeśli nie to szkoda tracić na nią miejsce.


  24. @22 (autor: mbe | data: 30/05/13 | godz.: 15:32)
    AMD mogło by to zrobić na podobnej zasadzie jaka jest w jaguarze. Tam każdy rdzeń ma swoje L2 ale w momencie wykorzystania tylko części rdzeni niewykorzystywane L2 jest przydzielane obciążonym rdzeniom.

  25. Hans de Vries - chip architect (autor: PCCPU | data: 30/05/13 | godz.: 15:36)
    ''This seems quite legit and
    it's a big module indeed....
    It seems many resources
    are doubled:
    Floating point: dual 256 bit
    FMA instead of dual 128
    bit FMA.
    Integer: 8 ALU's and 8
    AGU's instead of 4 both.
    Dual 32kB data caches
    instead of dual 16 kB.
    Many other resources are
    also doubled like rename
    hardware and so on.
    This is how I understand
    this design (on inf64's
    request):
    The single Bulldozer
    decoder somehow couldn't
    handle 2 threads running
    at 100% and for
    benchmarks we see at most
    a 50% performance increase
    when the "second core"
    becomes active. So it
    doesn't work good enough
    for CMT (but it's more than
    OK for dual threaded SMT)
    Now why not double up
    the decoder and use the
    capability to decode
    2 threads for SMT instead?
    The dual 6 cycle 256 bit
    FMA FP units "cry out
    loud" for more threads,
    they will be idle and
    unused otherwise for most
    of the cycles since you
    need 2x6=12 FP operations
    to go on simultaneously to
    fully utilize them.
    Even with 4 threads that's
    still 3 FP operations in
    parallel per thread.
    The old 128 bit FMA units
    used the hardware more
    efficiently with two
    cycles used per AVX
    operations but I guess one
    needs full 256 bit AVX
    units to score well at these
    specially designed synthetic,
    but otherwise
    pretty useless, benchmarks.
    A single "Integer core" now
    has 4 ALU's and 4 AGU's
    which can improve
    the integer performance
    somewhat, but not a lot.
    Actually I hope they
    can still function as dual 2
    ALU/AGU integer execution
    cores to support
    4 threads in parallel. That
    would really help
    multithreaded
    performance,
    and a little bit of the CMT
    ideas would survive.
    Over time, in subsequent
    versions, they can now
    incrementally improve
    single threaded
    performance using 4 ALU
    as much as possible. But
    even
    then. Integer performance
    wasn't really Bulldozers
    problem as can be
    seen in the Boinc
    Dhrystone benchmarks
    which showed a similar
    integer
    IPC as the Athlon/Phenom
    cores (as long as the
    benchmark fits in L1D)
    The L1D caches are
    doubled to 32kB to
    support 256 bit reads and
    writes.
    A single cache line of 512
    bit can now be read and
    written in a single
    cycle freeing up cycles for
    more program reads and
    writes. The double
    width also reduces bank
    conflicts.
    This strategy to improve
    Bulldozer/Piledriver is
    pretty much as I would
    have done it. I hope it's
    indeed AMD's way as well.
    Hans.''


  26. Steamroller? (autor: PCCPU | data: 30/05/13 | godz.: 15:49)
    Dziwne jest to że ze slajdów AMD nie wynikało by Steamroller miał być tym czym jest na tym zdjęciu(głównie 2x FPU 256bit).
    A może to nie jest Steamroller?


  27. @24 (autor: Plackator | data: 30/05/13 | godz.: 16:32)
    Czy steamroller nie miał mieć dynamicznie przydzielanej pamięci cache dla każdego z rdzeni ?

  28. @Plackator (autor: PCCPU | data: 30/05/13 | godz.: 17:18)
    Moduł Steamroller ma mieć L2 dzieloną na cztery strefy/części które mogą być wyłączane zależnie od jej obciążenia w celu oszczędzania energii.

  29. @27 (autor: mbe | data: 30/05/13 | godz.: 20:53)
    L2 w jest dzielone tylko w module (2mb na moduł).

    W jaguarze masz 0,5mb na rdzeń który może być przypisany do innego rdzenia albo jak kto woli 2mb współdzielny między 4 rdzenie.


    
D O D A J   K O M E N T A R Z
    

Aby dodawać komentarze, należy się wpierw zarejestrować, ewentualnie jeśli posiadasz już swoje konto, należy się zalogować.