TwojePC.pl © 2001 - 2024
|
|
Poniedziałek 17 czerwca 2013 |
|
|
|
Superkomputer Intela nr 1 w Top500 i nowy Xeon Phi Autor: DYD | 22:56 |
(5) | Nowy najszybszy superkomputer na świecie, napędzany koprocesorami Intel Xeon Phi i procesorami Intel Xeon zdobył właśnie tytuł najpotężniejszego superkomputera na świecie w 41. wydaniu listy 500 najszybszych superkomputerów Top500.org. System znany jako ''Milky Way 2'' zawiera 48 000 koprocesorów Xeon Phi oraz 32 000 procesorów Xeon i działa ze szczytową wydajnością 54,9 petaflopów (54,9 biliarda operacji zmiennoprzecinkowych na sekundę) - ponad dwukrotnie szybciej, niż czołowy system w poprzednim wydaniu listy z listopada 2012 r. Jest to pierwszy system od 1997 roku, który został w całości oparty na rozwiązaniach firmy Intel i zajął pierwsze miejsce w rankingu.
Roczne przychody ze światowego rynku serwerów do wysokowydajnego przetwarzania danych (high performance computing, HPC) wedle zapowiedzi IDC Worldwide Technical Computing Server 2013–2017 mają wzrosnąć o 36 procent - od 11 miliardów do 15 miliardów dolarów w ciągu następnych czterech lat. Wzrost ma wynikać z potrzeby szybkiego wykonywania obliczeń, przeprowadzania symulacji i podejmowania decyzji w rozmaitych branżach. Superkomputerów używa się do zwiększania dokładności prognoz pogody, poszukiwania bardziej wydajnych źródeł energii, opracowywania lekarstw, sekwencjonowania genomu ludzkiego i analizowania zbiorów danych big data.
System „Milky Way 2”, zbudowany dla Państwowego Centrum Superkomputerowego w Guangzhou w Chinach, jest napędzany przez 32 000 nowych, 12-rdzeniowych procesorów Intel Xeon E5-2600 v2, opartych na architekturze Ivy Bridge oraz 48 000 koprocesorów Intel Xeon Phi o łącznym poborze mocy 17,8 MW. Jest to nie tylko najszybszy, ale również jeden z najbardziej wydajnych energetycznie systemów z listy Top500. System używa „architektury neoheterogenicznej”, co oznacza, że architektura sprzętowa oferuje wiele klas możliwości obliczeniowych dostępnych w ramach wspólnego modelu programistycznego. Upraszcza to tworzenie i optymalizowanie oprogramowania, co nie byłoby możliwe w przypadku wykorzystania kombinacji procesorów i akceleratorów grafiki.
Wysoka wydajność i energooszczędność systemu jest zasługą nadchodzącej rodziny procesorów Intel Xeon E5-2600 v2, wytwarzanej w 22-nanometrowym procesie technologicznym. Procesory te napędzają nie tylko „Milky Way 2”, ale również 2 inne systemy z listy Top500, stworzone przez firmę Bull w ramach programu „wczesnych dostaw” dla producentów superkomputerów, realizowanego przez Intel. Jeden z nich zajmuje 54 miejsce w rankingu, a jego wydajność to 557 teraflopów. Drugi – miejsce 329 (139 teraflopów),. Produkty Intel Xeon E5-2600 v2 będą powszechnie dostępne w kolejnym kwartale i zaoferują nawet 12 rdzeni oraz częstotliwość taktowania sięgającą 2,7 GHz, zapewniając 259 gigaflopów na gniazdo, co oznacza 56-procentowy wzrost w porównaniu z poprzednią generacją.
Ponad 80 procent superkomputerów (403 systemów) z 41. wydania listy Top500 jest napędzanych procesorami Intela. Wśród systemów, które po raz pierwszy pojawiły się na liście, instalacje Intela stanowią 98 procent. W czerwcowej edycji listy znalazło się 11 systemów z koprocesorami Intel Xeon Phi, w tym systemy klasy petaflopowej, takie jak „Milky Way 2” (54,9 petaflopa) oraz „Stampede” (8,5 petaflopów).
Publikowana co pół roku lista superkomputerów Top500 jest dziełem Hansa Meuera z Uniwersytetu Mannheim, Ericha Strohmaiera i Horsta Simona z ośrodka National Energy Research Scientific Computing Center przy Departamencie Energii Stanów Zjednoczonych oraz Jacka Dongarry z Uniwersytetu Tennessee.
Intel zapowiedział również rozszerzenie bieżącej generacji koprocesorów Intel Xeon Phi o pięć nowych produktów o różnej wydajności, ilości obsługiwanej pamięci, energooszczędności i rodzaju obudowy, które są dostępne od dziś. Rodzina Intel Xeon Phi 7100, zaprojektowana i zoptymalizowana pod kątem największej wydajności i funkcjonalności, oferuje 61 rdzeni taktowanych zegarem 1,23 GHz, obsługę 16 GB pamięci (dwa razy więcej, niż dzisiejsze akceleratory i koprocesory) oraz wydajność 1,2 teraflopa w obliczeniach o podwójnej precyzji. Rodzina Intel Xeon Phi 3100 jest zoptymalizowana pod kątem wysokiej wydajności przy niskim koszcie i oferuje 57 rdzeni taktowanych zegarem 1,1 GHz oraz wydajność 1 teraflopa w obliczeniach o podwójnej precyzji. Intel dodał też kolejny produkt do zapowiedzianej w zeszłym roku rodziny koprocesorów Intel Xeon Phi 5100. Układ o nazwie Intel Xeon Phi 5120D jest zoptymalizowany pod kątem środowisk o wysokiej gęstości i umożliwia bezpośredni montaż gniazd na minipłycie do użytku w serwerach kasetowych.
Intel ujawnił informacje o drugiej generacji produktów Intel Xeon Phi, które umożliwią budowanie jeszcze wydajniejszych superkomputerów. Nowe produkty oparte na architekturze Intel MIC, określane kryptonimem „Knights Landing”, będą dostępne w postaci koprocesora albo procesora-hosta (CPU) i wytwarzane w technologii 14-nanometrowej z drugą generacją tranzystorów 3D Tri-gate.
Jako koprocesor na karcie PCIe, układ „Knights Landing” będzie odciążał systemowy procesor Intel Xeon, podobnie jak w obecnych rozwiązaniach, i zapewni ścieżkę migracji użytkownikom bieżącej generacji koprocesorów. Jednak zainstalowany bezpośrednio w gnieździe na płycie głównej będzie działał jako procesor i zaoferuje przełomową gęstość mocy obliczeniowej oraz wydajność na wat, wykonując wszystkie zadania podstawowego procesora i wyspecjalizowanego koprocesora.
Aby jeszcze bardziej przyspieszyć obsługę obciążeń roboczych HPC, Intel znacznie zwiększy przepustowość pamięciową wszystkich produktów „Knights Landing” poprzez wprowadzenie pamięci zintegrowanej z układem. Radykalnie ograniczy to opóźnienia dostępu do pamięci i pozwoli wykorzystać całą dostępną moc obliczeniową bez napotykania częstych dziś „wąskich gardeł”. |
| |
|
|
|
|
|
|
|
|
|
K O M E N T A R Z E |
|
|
|
- ??? (autor: Conan Barbarian | data: 18/06/13 | godz.: 20:56)
Nikt nic nie chce napisać o tak niesamowitym sprzęcie? Tyle się DYD namęczył a tu zero komenta.
Zatem dla uświadomienia napiszę, że to cudo mieli w porywach 55,000,000,000,000,000 FLOPS-ów.
Myślę jednak, że na Teslach K20x byłoby jeszcze szybsze "ogólnie" i na wat.
- Conan Barbarian (autor: pawel1207 | data: 19/06/13 | godz.: 00:11)
moglo by byc szybsze ale zapewne nie tak uniwersalne z tego co pamietam to to phi sklada sie z rdzeni x86 co daje naprawde niezla elastycznosc jesli chodzi o programowanie w porownaniu do takiego "cuda" , al ludzie nie komentuja bo do swojwj budy tego i tak nie wstawia :) ale pamietasz jak niemal wszyscy grolyfikowali rozwiazaniea amd i twierdzili jaki to "lalabree" beznadziejny i wogole a tu sie okazalo ze intel jednak zrobil z tego calkiem niezlyu urzytek :D teraz zostaje sobie pluc w brode ze intelowi nie udalo sie wprowadzic tego na rynek konsumencki.
- elastycznosc, ale nie jestli chodzi o programowanie (autor: RusH | data: 19/06/13 | godz.: 06:06)
a typ przetwarzanych danych
NV/ATI podajac tysiac pincet dwa dziewiecet fefnascie rdzeni GPU klamia.
http://www.khronos.org/...roc-warp-work-gp-threads
GPU maja 'tysiac pincet' jednostek wykonawczych, ale prawdziwych rdeni wykonujacych pojedyncze watki jest o wiele mniej (chyba 1/5 ATI, 1/8 NV)
np w Cuda majac problem wymagajacy tego samego obliczenia x 1600 programujesz "kernel" ktory ma sie wykonac 1600 razy i wyglada to jak program ktory wykona sie w 1600 rownoleglych watkow. Patrzac na kod wydaje ci sie ze faktycznie twoj kod zostanie wyslany do 1600 malych procesorkow i wykonany w C cykli (C = ilosci cykli jednego Kernela/watku).
Rzeczywistosc jednak ssie jak rosyjska tirowka bo twoj super kod wykona sie w 512 x 3 x C (czy cos takiego, pewnie cos klamie a nie chce mi sie sprawdzac) bo GPU nie ma 1600 procesorow (nawet jak masz K20), ma za to 100 ilestam procesorow SIMD i sprytny kompilator udajacy przed programista ze wykonuje kod rownolegle gdy tak na prawde rozklada problemy na serie szeregowych obliczen.
Do tego dochodzi brak logiki rozgalezien (conditional branching, skoki). Jesli twoje 1600 obliczen musi gdzies w srodku wykonac operacje warunkowa bedziesz musial wykonac 1600 obliczen x X KROTNIE bo CUDA jest za glupia na skoki.
Ze strony programisty bedzie wygladac ze faktycznie jest tam instrukcja warunkowa, jednak kompilator "sprytnie" wykona calosc obliczen dla kazdej mozliwej wartosci instrukcji warunkowej.
Wstawiajac cos ala
if x=1: blabla1
elif x=2: blabla2
elif x=3: blabla3
elif x=4: blabla4
...
elif x=16: blabla16
GPU wykona 1600 x 16 watkow :))) bo nie jest w stanie dokonac sprawdzenia stanu wewnatrz wykonywanego kodu.
Dlatego GPU stosuje sie w obliczeniach wymagajacych duzej mocy, ale jednoczesnie telerujacych wysokie opoznienia oraz "sprzegniete w przod" (lol ta polska terminologia, feedforward dataflow)
Dlatego np BOINC ma rozne implementacje CPU/GPU - sa dane ktorych sie po prostu NIE DA liczyc na GPU.
Sciemy Intela jakoby x86 dawalo jakas przewage sa takimi samymi klamstwami jak sciemy ATI/NV
http://software.intel.com/...-xeon-phi-coprocessor
>Note that both the IF and the ELSE are executed for all of the work items.
PHI tez jest wektorowe i nie ma logiki warunkowej bez trikow = twoj kod wykona sie tyle razy, ile masz mozliwych IFow
Tak wiec na pierwszy rzut oka nie ma zbytnio roznicy czy zastosuje sie Tesle, FirePro czy PHI. Nadal bedziemy ograniczeni do tego samego modelu programowania.
- no proszę.... (autor: Qjanusz | data: 19/06/13 | godz.: 22:14)
nie sądziłem że Larrabee pokaże jeszcze ząbki.
A tu taka niespodzianka :-)
Nie mniej zaskakującym wymiarem newsa jest miejsce powstania maszynki. Chińczyki trzymają się coraz mocniej.
- RusH (autor: pawel1207 | data: 19/06/13 | godz.: 23:11)
no racja kurde troche sie rozczarowalem "po poczytaniu troche o phi" no szalu jednak nie ma ,pewne ulatwienie jest ale to nie to czego sie spodziewalem, niemniej jednak maja jakas bron do walki z tesla i mam wrazenie ze troche tortu nv zabiora.
|
|
|
|
|
|
|
|
|
D O D A J K O M E N T A R Z |
|
|
|
Aby dodawać komentarze, należy się wpierw zarejestrować, ewentualnie jeśli posiadasz już swoje konto, należy się zalogować.
|
|
|
|
|
|
|
|
|
|