TwojePC.pl © 2001 - 2024
|
|
Czwartek 24 sierpnia 2017 |
|
|
|
Microsoft i Intel prezentują projekt Brainwave dla nowoczesnych SI Autor: Wedelek | źródło: HotHardware | 06:59 |
(18) | Microsoft we współpracy z Intelem zaprezentował na HotChips 2017 nowy system dla algorytmów sztucznej inteligencji. Projekt Brainwave to połączenie sprzętu produkowanego przez Intela z oprogramowaniem od giganta z Redmond. Stworzony w ten sposób ekosystem ma oferować bardzo wysoką wydajność podczas maszynowego uczenia i pozwoli tworzyć serwery dla SI, która będzie w stanie uczyć się w locie, bardzo szybko reagując na nowe warunki. Wydajność prezentowanego rozwiązania dla pojedynczego zapytania to 39 Teraflopsów.
Wiadomo, że podstawą dla całej platformy będą chipy Intela z serii FPGA Stratix 10. Na tym konkrety się kończą i nie wiadomo które dokładnie jednostki zdecydował się użyć Microsoft, a co za tym idzie trudno powiedzieć z ilu modułów ALM składa się opisywany produkt. Ze strony Intela dowiadujemy się, że podstawą wszystkich Stratixów 10 jest procesor z czterema Cortexami A53 pracującymi z zegarem 1,5GHz, wspieranymi przez 32KB pamięci L1 na dane i instrukcje, oraz 1MB pamięci L2 na same dane. Szczegółowa specyfikacja techniczna FPGA Intela znajduje się TUTAJ.
|
| |
|
|
|
|
|
|
|
|
|
K O M E N T A R Z E |
|
|
|
- Brawo Intel, innowacja, postęp, miazga (autor: Sony Vaio Surprise | data: 24/08/17 | godz.: 08:25)
Intel to wizjoner, ma jasne klarowne projekcje i tripy.
- Intel i ARM - bo będzie bardzo ciekawe doświadczenie (autor: Qjanusz | data: 24/08/17 | godz.: 09:08)
zobaczymy czy szybciej padnie niż Laarrabee -> Xeon Ph
Wydajność dla pojedynczego zapytania 39 Teraflopsów, to po prostu 39 Teraflopsów? Jak taką wydajność można odnieść chociażby do chociażby Tesli od nVidii?
- Intel licencjonujący Cortex-A53? (autor: pwil2 | data: 24/08/17 | godz.: 11:19)
A gdzie Atomy? ;-)
- @02 (autor: kombajn4 | data: 24/08/17 | godz.: 11:40)
Wiki podaje że Tesla V100 na architekturze Volta ma wydajność 14899 GFLOPS czyli 14.899 TFLOPS. Dla porównania Seti@Home w tabeli wydajności podaje że i7-7700K ma niecałe 46 GFLOPS.
Ja wszystko rozumiem dedykowany sprzęt itd ale 39 TFLOPS ? A podstawą są 4 rdzenie A53 ? Przecież to się kupy nie trzyma. O ile się nic nie zmieniło sieci neuronowe czyli podstawa SI są oparte na macierzach a GPU od zarania dziejów jest jednostką wyspecjalizowaną w operacjach na macierzach bo to podstawa grafiki 3D. Nie chce mi się wierzyć że taki układzik mógł mieć taka wydajność szczególnie że Intel sam podaje (w podlinkowanej tabeli) że szczytowa!! wydajność najszybszej wersji to 9,2 TFLOPS.
- @04 (autor: KamieniKupa | data: 24/08/17 | godz.: 12:48)
To jest dość rozbudowany FPGA - kłania się czytanie ze zrozumieniem...
- @04 (autor: KamieniKupa | data: 24/08/17 | godz.: 12:50)
Intel podaje, że dla JEDNEGO układu FPGA STRATIX 10, mamy max 10TFLOPS (znów czytanie ze zrozumieniem). Ten moduł posiada takich kilka(czytanie ze....).
- @04 (autor: KamieniKupa | data: 24/08/17 | godz.: 12:52)
W przypadku grafiki 3D jak i AI, podstawą są macierze - ale różnica jest bardzo duża. W przypadku grafiki 3D mamy macierze danych, które się nie zmieniają podczas obliczeń. W przypadku SI mamy macierze, których dane zmieniają się z czasem podczas wykonywania obliczeń.
- KamieniKupa (autor: kombajn4 | data: 24/08/17 | godz.: 13:17)
Jakie czytanie ze zrozumieniem? W którym miejscu niby jest napisane że to karta wieloprocesorowa? W grafice 3D macierze się nie zmieniają? Czyli co według ciebie obraz jest statyczny? Przy dowolnym obrocie, przekształceniu itp zmieniają się macierze obiektu.
- @08 (autor: KamieniKupa | data: 24/08/17 | godz.: 14:08)
Od początku: "Microsoft we współpracy z Intelem zaprezentował na HotChips 2017 nowy system dla algorytmów sztucznej inteligencji." - System, czyli składa się z więcej niż jednego komponentu. Następnie mamy "Wiadomo, że podstawą dla całej platformy będą chipy Intela z serii FPGA Stratix 10." - Chipy w liczbie mnogiej. A potem mamy "Wiadomo, że podstawą dla całej platformy będą chipy Intela z serii FPGA Stratix 10. Na tym konkrety się kończą i nie wiadomo które dokładnie jednostki zdecydował się użyć Microsoft, a co za tym idzie trudno powiedzieć z ilu modułów ALM składa się opisywany produkt" - Nie wiemy jaki FPGA i ile tych układów FPGA jest w systemie, ponieważ wydajność całego systemu jest ponad 4x wyższa niż najszybszego układu.
A co do grafiki i macierzy - każda operacje geometryczna tworzy nową macierz, która może zostać policzona działając na niej operatorem. W przypadku sieci neuronowych lub obliczeń wykorzystujących samo-uzgodnienie (np. SCF), macierz jest budowana, jeszcze podczas operacji wykonywanej na niej.
- @09 (autor: kombajn4 | data: 24/08/17 | godz.: 14:12)
System bo to sprzęt + oprogramowanie. "chipy Intela z serii FPGA Stratix 10." Zajrzyj do linku Stratix 10 to nie jeden układ tylko cała rodzina i stąd liczba mnoga moim zdaniem.
- Pojawił się naczelny.... (autor: Mario1978 | data: 24/08/17 | godz.: 15:18)
to dobrze bo od razu inaczej się czyta komentarze chociaż patrząc na wszystkie jestem zdziwiony ,że nikt nie uległ presji jaka została wytyczona w pierwszym komentarzu.
Brakuje mi jeszcze tutaj osoby ,która zawsze zaczyna swój komentarz od słów "CZY PÓJDZIE NA TYM CRISIS".
Najważniejsze ,że coś tam INTEL jeszcze robi.
- @Mario mnie tam crysis (autor: Dather | data: 24/08/17 | godz.: 15:52)
nie interesuje, ciekaw jestem czegoś innego - jak taką platformę wrzuce do pralki, czy będzie szybciej prać? :D
- Dather pralka??? nie jesteś na bieżąco, przespałeś? (autor: Sławekpl | data: 24/08/17 | godz.: 17:02)
teraz pranie przecież robisz w chmurze :)
chipzilla i A53, nie może z tego nic dobrego wyjść, wydajność starych AMD Gode (czy jak się to nazywało)? :P
- @9. (autor: Mariosti | data: 24/08/17 | godz.: 17:12)
Jak pamiętam z sieci neuronowych to zawsze jako minimum konieczne było przeliczenie conajmniej jednej "warstwy" macierzy neuronowej aby możliwe było wyciągnięcie jakichkolwiek sensownych wniosków co to uczenia/modyfikowania tej warstwy, a zasadniczo najlepsze wyniki i tak daje uczenie dopiero po każdym pełnym cyklu przeliczenia danej sieci, bo bez kompletnego cyklu nie jesteś w stanie przewidzieć czy sieć będzie uczyła się w sposób którego oczekujesz czy nie. Także to co piszesz to zasadniczo bzdura. Zawsze jest kolejność obliczeń, a super dokładne modele symulujące fizyczne neurony są stosowane tylko do prac badawczych nad mózgiem i ogólnie układem nerwowym, a lwia część obliczeń gdzie wykorzystuje się samo uczące sieci neuronowe nie operują na takich dokladnych symulacjach, tylko na modelach bardzo uproszczonych które to nie wymagają niewiadomo jakiej mocy obliczeniowej do sensownego symulowania pracy 100 neuronów i mogą być z powodzeniem stosowane do rozpoznawania obrazów, tekstu itd.
- @14 (autor: KamieniKupa | data: 24/08/17 | godz.: 19:02)
"Jak pamiętam z sieci neuronowych to zawsze jako minimum konieczne było przeliczenie conajmniej jednej "warstwy" macierzy neuronowej aby możliwe było wyciągnięcie jakichkolwiek sensownych wniosków co to uczenia/modyfikowania tej warstwy, a zasadniczo najlepsze wyniki i tak daje uczenie dopiero po każdym pełnym cyklu przeliczenia danej sieci, bo bez kompletnego cyklu nie jesteś w stanie przewidzieć czy sieć będzie uczyła się w sposób którego oczekujesz czy nie."
Brawo, to co napisałeś jest opisem bardzo prostej, liniowej sieci neuronowej. - Tylko po co taki sprzęt jak w opisie tego artykułu? Wystarczy do tego procesor czy karta graficzna.
"Także to co piszesz to zasadniczo bzdura" Czyli na podstawie "Jak pamiętam z sieci neuronowych" wyciągasz wniosek, że to co pisze to zasadnicza bzdura ?
" Zawsze jest kolejność obliczeń, a super dokładne modele symulujące fizyczne neurony są stosowane tylko do prac badawczych nad mózgiem i ogólnie układem nerwowym, a lwia część obliczeń gdzie wykorzystuje się samo uczące sieci neuronowe nie operują na takich dokladnych symulacjach, tylko na modelach bardzo uproszczonych które to nie wymagają niewiadomo jakiej mocy obliczeniowej do sensownego symulowania pracy 100 neuronów i mogą być z powodzeniem stosowane do rozpoznawania obrazów, tekstu itd."
Nie zawsze jest kolejność obliczeń, chociaż by w przypadku częściowego obliczania macierzy Hessa, gdy ta jest zbyt duża lub optymalizacji jakiegoś procesu, który zmienia algorytm optymalizacji, równania, ilość zmiennych, dane wejściowe w zależności pośrednich wyników wyjściowych. Przykładem jest SCF.
I nikt nie mówił o symulacji modeli zwierzęcych komórek nerwowych (których się nie da ze względu na złożoność ;-*, co najwyżej jakieś skrajne-skrajności uproszczeń).
- @15. (autor: Mariosti | data: 24/08/17 | godz.: 22:04)
1. W genesis można pisać bardzo precyzyjne modele symulacje neuronów-synaps, a nawet grup neuronów. Przygotowywanie tych modeli jest dość czasochłonne ale dobrze przygotowane zachowują się dokładnie tak jak rzeczywiste neurony.
2."Zawsze jest kolejność obliczeń" wynika z podstaw matematyki i algorytmiki, a poza tym również z podstaw elektroniki. Układy scalone inaczej działać nie potrafią, no może poza układami kwantowymi, ale o takich tutaj nie mówimy, także zawsze gdy jakikolwiek procesor wykonuje jakieś skomplikowane zadanie którego nie może wykonać to zadaniem programisty/algorytmu jest takie rozbicie zadania aby procesor dostał zadania rozwiązywalne przez siebie. Te cząstkowe zadania wykonywane przez procesor zawsze są wykonywane od początku do końca. W przypadku nowoczesnych kart graficznych wystarczy zestaw kilkudziesięciu macierzy ~64x64 dostarczanych na bieżąco aby w 100% wykorzystać moc obliczeniową nawet najmocniejszego gpu, a przy jakiejkolwiek złożonej symulacji dostarczanie takich zadań nie stanowi żadnego problemu.
3.To co opisałem to przykład najpopularniejszego rodzaju sieci neuronowych. To że akademicko tworzy się tylko bardzo proste przykłady takich sieci nie zmienia faktu iż bardzo rozbudowane ich przykłady są właśnie najczęściej wykorzystywanymi sieciami neuronowymi w praktyce, czyli w rozpoznawaniu obrazów, tekstów, symboli itd.
W procesie uczenia i przygotowywania takich sieci do deploymentu jako np części biblioteki do jakiegoś oprogramowania wymagany jest właśnie bardzo mocny sprzęt po to aby w sensownym czasie udało się stworzyć zestaw sieci które dobrze się sprawują w specyficznych zadaniach.
Dzięki temu relatywnie słabe procesory wystarczą do korzystania z takich sieci na żywo i uzyskiwania bardzo dobrych rezultatów - patrz przemysł motoryzacyjny, wykrywanie znaków, pojazdów, zakrętów, pieszych, zwierząt itd.
Powtarzam, jeśli sugerujesz że "nie zawsze jest kolejność obliczeń" to lepiej nie zbliżaj się do programowania, algorytmiki.
- @16 (autor: KamieniKupa | data: 25/08/17 | godz.: 12:57)
Odnosząc się do 1.
Genesis, symuluje na podstawie empirycznych, mocno spasteryzowanych modeli, które w pewnym zakresie symulują sieć neuronową - Ma to się nijak do prawdziwych neuronów.
Odnosząc się do 2.
Nie wszystkie algorytmy mają zdeterminowaną kolejność obliczeń dla tych samych parametrów wejściowych.
Wiele algorytmów wykonuje skoki do innych algorytmu, dynamicznie zmienia parametry obliczeń, losuje parametry w pewnym zakresie liczbowym.
Nie ma zdefiniowanej kolejności od A do B w przypadku wielu algorytmów. To, że operacje wykonywane w algorytmie są rozbijane na pojedyncze instrukcje, nie ma związku z sekwencyjnością algorytmu.
Dajmy na to, że wykorzystujemy algorytm wykorzystujący rozkład prawdopodobieństwa P(x), np. Metropolis. Na dodatek parametr x jest losowany przez algorytm, wykorzystujący odczytane szumy elektryczne i termiczne z czujników procesora/płyty głównej. Ponad to, algorytm wykonuje inne instrukcje w zależności od wartości parametru T, który może przybierać różne wartości z różnym prawdopodobieństwem.
3. No dobrze, że opisałeś :->, cieszę się z tego.
"Powtarzam, jeśli sugerujesz że "nie zawsze jest kolejność obliczeń" to lepiej nie zbliżaj się do programowania, algorytmiki." - Algorytmiki się nie programuje, algorytmy się projektuje. Nie mam zatem zamiaru "programować algorytmów", zwłaszcza takich co idą od A do B i dają deterministyczne wyniki dla danego zestawu danych. Bo mi nie potrzebne w mojej dziedzinie nauki.
- Intel 80170NX ETANN (autor: pandy | data: 27/08/17 | godz.: 00:22)
mial na przelomie lat 80 i 90 ubieglego wieku wydajnosc na poziomie 2GOPS po tych 30 latach prawie mozna sie spodziewac tych TFlops.
|
|
|
|
|
|
|
|
|
D O D A J K O M E N T A R Z |
|
|
|
Aby dodawać komentarze, należy się wpierw zarejestrować, ewentualnie jeśli posiadasz już swoje konto, należy się zalogować.
|
|
|
|
|
|
|
|
|
|