Twoje PC  
Zarejestruj się na Twoje PC
TwojePC.pl | PC | Komputery, nowe technologie, recenzje, testy
M E N U
  0
 » Nowości
0
 » Archiwum
0
 » Recenzje / Testy
0
 » Board
0
 » Rejestracja
0
0
 
Szukaj @ TwojePC
 

w Newsach i na Boardzie
 
TwojePC.pl © 2001 - 2024
Środa 29 sierpnia 2012 
    

Kilka informacji o architekturze Steamroller i planach AMD


Autor: Wedelek | źródło: Legit Reviews | 10:07
(19)
Podczas imprezy Hot Chip, Mark Papermaster z AMD zaprezentował zgromadzonym kilka slajdów, które prezentują to, na czym firma z Sunnyvale skupi się przez najbliższe lata. Wśród zapowiedzi pojawiła się między innymi architektura Steamroller, która ma uzupełniać oprogramowanie, nazwane mianem "Surround Computing". Pod tą nazwą kryją się usługi udostępniane w chmurze, dzięki którym typowi użytkownicy mogliby uzyskiwać dostęp nie tylko do swoich danych z każdego miejsca na ziemi, ale też zlecać wykonanie skomplikowanych zadań znacznie mocniejszym komputerom, stojącym w serwerowniach.

Oczywiście tego typu wymiana informacji jest w zasięgu użytkownika nawet dzisiaj, ale korzystają z niej nieliczni, a chodzi o to, by stało się to codziennością. Ponadto AMD chce zastąpić tradycyjny zestaw myszka+klawiatura nowym sposobem sterowania z wykorzystaniem dotyku i głosu.

Jeśli chodzi o architekturę Steamroller, to ze slajdów dowiadujemy się, że AMD po raz kolejny zwiększy wydajność IPC rdzeni x86 w stosunku do Piledrivera, dzięki ulepszeniom w kolejkowaniu instrukcji, zwiększeniu szybkości przesyłu danych pomiędzy poszczególnymi elementami procesora i poprawieniu mechanizmu przewidującego, jakie instrukcje należy wykonać w następnej kolejności. AMD zwiększy również ilość pamięci, w której przechowywane są instrukcje czekające na wykonanie oraz zastosuje dwa odrębne, 4-drożne dekodery instrukcji zamiast jednego. Pojawi się też możliwość dynamicznego dostosowywania wielkości pamięci podręcznej drugiego poziomu dla konkretnych aplikacji, co będzie prowadzić do redukcji w opóźnieniach występujących przy dostępie do niej. Optymalizacje dotknęły również jednostki FMAC, które są teraz lepiej przystosowane do pracy z dzisiejszymi aplikacjami. Na koniec warto nadmienić o zwiększeniu wydajności części stałoprzecinkowych o 30% i licznych modyfikacjach, które poprawią efektywność procesora - większa wydajność przy tym samym poborze energii.


 
    
K O M E N T A R Z E
    

  1. Surround Computing? (autor: Duke Nukem PL | data: 29/08/12 | godz.: 10:48)
    Ale co? Dostęp do shel'a? Uruchamianie własnych programów? Np. do generowania zestawów hash'y dla wszystkich kombinacji haseł w skończonym ciągu w różnych algorytmach szyfrujących (zwanych rainbow tables)? http://www.freerainbowtables.com/?lang=pl - chciałbym to widzieć w wydaniu "Surround Computing". ;)

  2. 30% ipc (autor: RusH | data: 29/08/12 | godz.: 11:12)
    lol juz to widze

  3. @2. (autor: TeXXaS | data: 29/08/12 | godz.: 11:32)
    Wiesz... poprzednie platformy wyglądały, że jest spore pole do optymalizacji - może dadzą radę. Chociaż do szybkiej pracy to potrzebowaliby patentów Intela na cache. :)

  4. z punktu widzenia wydajności (autor: Zbyszek.J | data: 29/08/12 | godz.: 12:22)
    najważniejsze zmiany (nie wszystkie wymienione w newsie) to zastosowanie dwóch odrębnych 4-drożnych dekoderów instrukcji zamiast jednego oraz zwiększenie wydajności części stałoprzecinkowych o 30%. Nie muszę dodawać, że potencjalnie oznacza to miejscami nawet 2-krotny wzrost wydajności, jednak w praktyce średni wzrost będzie niższy bo nie wszystko co dostarczą do modułu dekodery zostanie przetworzone dalej w blokach wykonawczych.

    Wzrost IPC jednego wątku w porównaniu do Piledrivera można szacować na 20-30%, natomiast dzięki podwójnemu dekoderowi drugi wątek odpalany na module powinien mieć wydajność w granicach 85-90% pierwszego wątku (w Bulldozerze przez jeden dekoder faktycznie jest to mniej, ok 75%).


  5. Jeszcze (autor: Zbyszek.J | data: 29/08/12 | godz.: 12:30)
    bardzo ciekawie wygląda dynamiczna zmiana wielkości pamięci L2 w kolejnych krokach o 1/4, co będzie skutkowało zmniejszeniem opóźnienia w dostępnie do danych. Niektóre aplikacje zamiast np 2MB wolnego L2 wolą 100 czy 200 KB szybkiego L2 (jak w Sandy Bridge), i w ich przypadku powinno dać to wyraźne przyspieszenie.

    Dekodery:
    Bulldozer: http://www.xbitlabs.com/...md_bulldozer_scheme.jpg
    Steamroller: http://www.techpowerup.com/img/12-08-28/154n.jpg

    I lektura: http://www.anandtech.com/...eamroller-architecture

    W zasadzie, tak od początku powinien wyglądać Bulldozer, co zresztą powiedział nawet CTO Papermaster.


  6. ... (autor: trepcia | data: 29/08/12 | godz.: 12:53)
    Jednym słowem architektura Bulldozera ma potencjał, jak narazie uśpiony.

  7. Wygląda (autor: Jarek84 | data: 29/08/12 | godz.: 13:11)
    nader interesująco :)

    wsyzstkie slajdy dla zainteresowanych
    http://www.techpowerup.com/...ound-Computing-.html


  8. ważniejsze (autor: Markizy | data: 29/08/12 | godz.: 14:45)
    pytanie jest to kiedy wrzucą te procki na rynek, jak pod koniec 2013 to mogą zapomnieć że coś zarobią, jeśli początkiem to przy dobrej wydajności odzyskają parę % co stracili.

  9. Mam nadzieję, że to szybko stanieje... dlla Kowalskiego, może jakieś rabaty... (autor: SebaSTS | data: 29/08/12 | godz.: 14:48)
    za klikanie on-line?
    >-<


  10. Steamroller... (autor: PCCPU | data: 29/08/12 | godz.: 14:52)
    Czy ja dobrze widzę/myślę że Moduł Steamroller dostanie sumarycznie 8(2x 4)dekoderów x86?

  11. PCCPU (autor: Zbyszek.J | data: 29/08/12 | godz.: 15:13)
    dobrze widzisz

  12. To Intel dostanie ale po d.... (autor: SebaSTS | data: 29/08/12 | godz.: 15:34)
    >-<

  13. @Markizy (autor: rainy | data: 29/08/12 | godz.: 15:46)
    O początku roku, to możesz śmiało zapomnieć - mogą wtedy pokazać co nawyżej gotowego sampla.

    Przypuszczam, że masowo pojawią się pod koniec II albo III kwartału - w innym przypadku premiera Trinity jesienią nie miałaby najmniejszego sensu.

    Btw, dobrze, że AMD postanowiło pokazać malkontentom, iż wbrew ich twierdzeniom, ta architektura ma jednak potencjał i wystarczy ją "tylko" solidnie usprawnić.


  14. Zbyszek.J (autor: PCCPU | data: 29/08/12 | godz.: 16:02)
    Więc jednak tak jak przypuszczałem jednostek wykonawczych w jednym Module/2T Bulldozer/Piledriver jest cała masa (8 jednostek arytmetyczno-logicznych(4ALU 4AGU) a na pojedynczy wątek przypadają 4(klaster Integer(2ALU 2AGU)). Teoretycznie każdy klaster Integer(dwa w Module) może przetworzyć 4 mikro-operacje ale w praktyce 4 Dekodery x86 o teoretycznych możliwościach 8 mikro-operacji puszczają 4 mikro-operacje na dwa klastry integer czyli tylko dwie mikro-operacje na pojedynczy wątek 2ALU 2AGU zamiast 4.
    W rezultacie Moduł BD osiąga max 4 IPC zamiast teoretycznie 8 IPC. Śmiem twierdzić że obecnie 4 dekodry x86 w M BD są w rzeczywistości przypisane na stałe po dwa na klaster integer przez co głównie w pojedynczym wątku osiągane są max 2 IPC zamiast teoretycznie 4 IPC(marnotrawstwo jednostek wykonawczych). Zaimplementowanie 8 dekoderów x86 plus inne poprawki w Module Steamroller (4 dekodery x86 w Module BD/PD) pozwoli zbliżyć się do teoretycznych 8 IPC dla 2T i 4 IPC dla 1T(pojedynczy wątek) dzięki bardziej optymalnemu wykorzystaniu jednostek wykonawczych 4ALU 4AGU(8 jednostek stałoprzecinkowych/arytmetyczno-logicznych). Niech jeszcze dopracują FPU i będzie naprawdę ok.


  15. @14 (autor: quadcore | data: 29/08/12 | godz.: 16:26)
    Mózg roz**bany :)

  16. :-O (autor: PCCPU | data: 29/08/12 | godz.: 16:48)
    Szczerze mówiąc to niespodziewałem się tak drastycznej zmiany w architekturze Modułu Steamroller jak dodanie aż 8 dekoderów x86.

    Core SB/IB
    4 Dekodery x86 ~5 IPC

    Core K10 3 Dekodery x86 ~2.5 IPC

    Moduł BD/PD 4 Dekodery x86 do 4 IPC

    Moduł Steamroller 8 Dekoderów x86 teoretycznie do 8 IPC


  17. To Ci zami fachowcy co zauważyli , że 5 jednostka obliczenipowa w GPU... (autor: SebaSTS | data: 29/08/12 | godz.: 16:53)
    ...się marnuje a w BULDKU o wiele więcej ... ja tylko czekam na wynik końcowy bo czas ucieka a człowiek nie staje się młodszy...

  18. upps nie trafiłem w literkę są tak blisko... (autor: SebaSTS | data: 29/08/12 | godz.: 16:55)
    PCCPU czym tym się zajmujesz, że tak to ładnie opisaleś i tak szybko...??

  19. Ciekawe... (autor: PCCPU | data: 29/08/12 | godz.: 17:30)
    Ciekawe jakie dekodery zastosują w Module SR bo jeśli rzeczywiście takie same co w BD to teoretycznie 8 dekoderów x86 będzie mogło puścić aż 16 mikro-operacji/8 makro-operacjí ale zapewne w praktyce będzie to do 8 mikro-operacji.

    
D O D A J   K O M E N T A R Z
    

Aby dodawać komentarze, należy się wpierw zarejestrować, ewentualnie jeśli posiadasz już swoje konto, należy się zalogować.